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物 联网 所 引领 的 万 物 互 联 已 是 大 势 所 趋 ， 它 和 大 数据 、 人 工 智能 等 新 的 技术 进步 一 同 掀起 了 新 一 波 的 产业 创新 浪潮 。 各 种 新 技术 、 新 理念 以 及 新 需求 也 对 物 联网 产品 的 构建 提出 了 诸多 新 的 挑战 。 一 方 
面 ， 物 联网 应 用 通常 是 一 个 复杂 的 分 布 式 系统 。 哪 怕 一 个 简单 的 应 用 也 往往 涉及 多 个 平台 的 数据 采集 、 分 析 、 预 测 和 用 户 交互 等 方方面面 的 任务 。 通 用 且 广 为 使 用 的 构建 技术 就 显得 尤为 重要 。 另 一 方面 ， 
天 下 武功 ， 唯 快 不 破 。 在 创新 不 断 涌现 的 物 联 网 领域 ， 拥 有 可 以 快速 构建 、 测 试 、 部 署 和 和 迭 代 更 新 原型 的 技术 就 意味 着 有 机 会 领先 一 步 ， 更 快 把 产品 推 向 市 场 。 


本 书 详细 介绍 了 Javascript 与 物 联网 的 结合 ， 很 好 地 契合 了 物 联网 开发 的 这 两 个 重要 需求 。 本 书 充分 阐述 了 Javascript 在 物 联网 设备 端 、 用 户 端 到 云端 等 各 种 应 用 开发 所 涉及 的 知识 和 技巧 。 正 如 这 些 应 
实现 过 程 所 展示 的 ，JavaScrip 作 为 Web 的 标准 编程 语言 (也 是 2017 GitHub 上 最 热门 的 编程 语言 ) ， 在 物 联网 领域 同样 可 以 做 到 全 栈 履 盖 与 快速 开发 。 特 别 值得 一 提 的 是 ， 本 书 同样 体现 了 物 联网 覆盖 面 
广 和 注重 实践 的 特点 。 对 于 众多 前 沿 课题 都 有 涉及 ， 并 且 为 了 避免 泛泛 而 谈 ， 作 者 专门 编写 了 大 量 实际 可 操作 的 案例 来 帮助 读者 深入 理解 相关 知识 。 无 论 是 初学 者 、 抑 或 想 从 事物 联网 开发 的 传统 Web 编 程 
者 ， 还 是 资深 的 物 联 网 工作 者 ， 都 可 以 从 本 书 中 找到 对 自己 实际 工作 有 帮助 的 内 容 。 简 言 之 ， 这 是 一 本 阅读 后 ， 可 以 帮助 您 快速 构建 可 商用 化 物 联 网 应 用 的 好 书 。 


一 一 本 俊 勇 ，Intel 软 件 与 服务 部 门 首席 工程 师 


互联 网 正在 形成 与 大 脑 高 度 相似 的 类 脑 系统 ， 而 物 联 网 是 互联 网 发 展 到 一 定 阶段 后 产生 的 感觉 和 运动 神经 萌芽 ， 除 了 人 工 智能 算法 之 外 ， 驱 动 这 个 巨大 系统 运转 更 需要 一 个 统一 的 、 强 大 的 程序 语言 ， 
本 书 将 互联 网 时 代 的 JavasScript 语 言 应 用 到 物 联网 连接 的 智能 设备 上 ， 这 是 一 个 非常 有 意义 的 创新 。 它 让 我 们 看 到 了 未 来 实现 的 电光。 全面 深入 了 解 JavaScript， 也 许 是 进入 互联 网 大 脑 时 代 的 一 把 钥匙 。 


一 一 刘 锋 ，《 互 联网 进化 论 》 作 者 ， 人 工 智能 学 家 主编 


物 联网 已 经 开始 影响 每 一 个 组 织 、 家 庭 及 个 人 ， 其 与 人 工 智能 、 云 计算 、 大 数据 等 技术 正在 推动 我 们 进入 万 物 互联 的 智能 社会 。 具 有 JavasScript 交 互 能 力 的 智能 设备 在 逐渐 增多 ， 其 在 硬件 端 以 及 物 联 
网 领域 的 大 规模 应 用 将 出 现 全 新 一 轮 的 机 会 。 可 以 说 本 书 为 Javascript 的 开发 者 打通 了 一 条 通 向 物 联网 应 用 构建 的 高 速 路 ， 实 现 从 0 到 1 的 突破 。 


一 一 李 俊 周 ， 京 东 智能 市 场 总 监 


序 一 


优美 的 语言 应 该 是 简单 明白 的 ， 最 有 生命 力 的 语言 需要 改变 自己 以 适应 时 代 的 发 展 。 尤 其 是 进入 智能 化 、 物 联网 化 、 大 数据 化 的 时 代 ， 语 言 更 需要 适应 这 种 变化 。 没 有 一 个 语言 能 让 我 像 对 JavaScript 
这 样 如 痴 如 醉 的 。 正 因为 它 的 简单 和 无 时 无 刻 的 变化 ， 让 它 变 得 越 来 越 无 所 不 能 。JavaScript 是 一 种 直译 式 脚本 语言 ， 也 是 一 种 动态 类 型 、 弱 类 型 、 基 于 原型 的 语言 ， 内 置 支持 类 型 。 第 一 次 接触 JavaScript 
是 1996 年 ， 当 时 在 美国 惠普 用 JavaScript 开 发 一 个 Web 框 架 下 的 SAP 应 用 ，JavaScript 引 警 作为 浏览 器 的 一 部 分 。JavaScript 初 看 起 来 像 Java 的 格式 ， 因 此 取 名 为 JavaScript。 但 实际 上 它 的 语法 风格 与 Self 
及 Scheme 较为 接近 。 后 来 ， 在 微软 和 欧洲 计算 机 制造 商 协会 的 共同 推动 下 ，JavasScript 兼 容 ECMA 标 准 。Javascript 老 树 新 芽 的 生发 是 在 Nodejjs 出 现 后 ， 让 它 可 以 开发 后 台 ， 而 PhoneGap 和 Ionic 之 类 的 
框架 让 它 可 以 开发 App， 等 等 。JavasScript 似 乎 在 向 很 多 领域 延伸 它 的 魅力 ， 使 物 联网 端 到 端的 统一 成 为 可 能 。 


物 联网 架构 可 以 认为 是 对 互联 网 的 扩展 。 互 联网 到 物 联网 的 一 个 最 大 变化 是 应 用 终端 由 硬件 层 上 的 采集 器 取代 了 。 物 联网 的 应 用 实际 上 是 一 个 控制 流 和 数据 流 的 双向 流动 。 控 制 指令 由 应 用 平台 
(AP) 、 应 用 使 能 平台 (AEP) 、 连 接管 理 平台 (CMP) 流向 智能 硬件 平台 (SSP) 。 而 数据 流 反 之 ， 由 智能 硬件 平台 流向 可 视 化 平台 。 这 个 改变 充分 体现 出 物 联网 的 数据 流 本 质 。 物 联网 不 再 局 限于 使 
HTTP 协 议 来 传输 数据 ， 它 还 会 使 用 受 限制 的 应 用 协议 (CoAP) 、 消 息 队列 遥测 传输 (MQTT) 协议 。 硬 件 层 上 的 物 联网 网 关 负 责 处 理 来 自 各 个 硬件 设备 的 数据 ， 需 要 有 更 好 的 边缘 数据 处 理 能 力 ， 并 将 其 
上 传 至 AEP。 同 时 ， 它 会 提供 一 个 无 线 (如 ZigBee、Lora、NBloT) 接口 作为 数据 的 入 口 。 


想 要 完成 一 个 并 不 复杂 的 物 联 网 系统 ， 你 可 能 需要 使 用 6 个 不 同类 型 的 工程 师 和 多 种 开发 语言 : 一 个 设计 电路 图 的 硬件 工程 师 ， 一 个 懂 硬 件 的 嵌入 式 工程 师 ， 一 个 写 服务 端 应 用 的 工程 师 ， 一 个 写 Web 
前 端的 工程 师 ， 以 及 对 应 的 Android 和 iOS 工 程 师 ， 而 这 些 工程 师 又 会 在 开发 中 使 用 多 种 语言 。JavaScript 的 无 所 不 能 则 使 得 我 们 可 以 使 用 JavaScript 一 种 语言 来 完成 物 联网 的 全 栈 开 发 。 物 联网 最 精彩 的 部 
> 无 非 是 最 中 间 的 应 用 使 能 平台 (AEP) 。 在 该 平台 可 以 充分 运用 数据 技术 ， 实 现 认 知 转换 ， 能 力 开发 和 挖掘 。JavaScript 在 这 一 层 上 完成 了 和 各 种 数据 技术 包 的 结合 调用 。 物 联网 使 用 JavaScript 进 行 全 栈 
开发 将 大 大 改善 开发 效率 、 开 发 人 员 知 识 面 等 难题 。 


李 知 周 博 士 用 他 多 年 来 在 世界 500 强 IT 企 业 的 工作 经 验 ， 在 网 络 、 大 数据 、 人 工 智能 、 信 息 安 全 等 诸多 领域 拥有 的 丰富 实践 ， 以 及 对 物 联 网 数据 流 的 独特 见解 ， 写 成 了 本 书 。 作 者 把 JavaScript 物 联网 架 
构 开 发 和 DevOps 等 现代 化 开发 方法 、 框 架 融 合 在 一 起 。 本 书 用 实战 开发 的 手法 驱动 ， 一 步 一 步 把 实现 细节 讲解 得 非常 明白 ， 只 要 逐个 完成 书 中 的 项 目 ， 你 就 可 以 彻底 理解 怎么 构建 全 栈 物 联网 应 用 ， 理 解 
相关 的 所 有 组 件 。 本 书 除了 会 带领 你 通过 现代 化 的 编程 思路 一 步 一 步 完 成 JavasScript 物 联网 全 栈 开 发 ， 还 通过 实战 演练 向 读者 介绍 了 实用 开源 硬件 OpenFPGAduino。 总 之 ， 本 书 是 一 部 难得 的 物 联 网 和 工 
业 4.0 开 发 者 的 学 习 指导 和 参考 书 。 


一 一 曹 友 盛 ， 前 思科 中 国 研究 院 副 院 长、 全 球 研 发 总 监 ， 中 兴 物 联网 与 


大 数据 研究 院 首席 科学 家 、 中 兴 力 维 首席 技术 官 


| 


物 联网 是 以 感知 为 目的 的 物 物 互联 网 络 ， 是 继 互联 网 之 后 的 世界 信息 产业 第 三 次 浪潮 的 代表 ， 是 信息 技术 的 未 来 制高点 和 产业 升级 的 核心 驱动 力 。 物 联网 的 发 展 将 引发 新 一 轮 产 业 革命 与 商业 变革 ， 推 


动物 联网 的 发 展 与 应 用 已 成 为 各 国 提升 信息 产业 核心 竞争 力 和 发 展 新 型 经 济 的 战略 选择 ， 也 成 为 推动 产业 升级 和 提高 社会 信息 化 水 平 的 重要 抓 手 。 


以 物 联网 为 代表 的 信息 通信 技术 正 加 快 转化 为 现实 生产 力 ， 从 浅 层 次 的 工具 和 产品 深化 为 重 塑 生产 组 织 方式 的 基础 设施 和 关键 要 素 ， 深 刻 改变 着 传统 产业 形态 和 人 们 的 生活 方式 ， 催 生 了 大 量 新 技术 、 
新 产品 、 新 模式 ， 引 发 了 全 球 数字 经 济 浪潮 。 


随 着 各 国政 府 对 物 联网 技术 重视 程度 的 逐渐 增强 ， 物 联网 对 各 行业 的 影响 越 来 越 深 远 。 美 国 市 场 研究 公司 Gartner 预 测 ， 到 2020 年 ， 全 球 物 联网 设备 将 达到 260 亿 台 ， 市 场 规模 到 1.9 万 亿美 元 。 麦 肯 锡 
的 预测 更 惊人 ， 到 2025 年 ， 市 场 规模 将 到 11.1 万 亿美 元 (相当 于 60 万 亿 人 民 币 ) 。 


第 三 届 世 界 互联 网 大 会 上 ， 百 度 董事 长 兼 CEO 李 彦 宏 在 全 体会 议 上 表示 : 移动 互联 网 时 代 已 经 结束 ， 不 会 再 有 新 独 角 兽 ， 物 联网 已 经 为 时 不 远 ， 不 管 是 电视 、 冰 箱 ， 还 是 椅子 、 桌 子 ， 都 可 以 用 自然 语 
言 跟 它 进行 对 话 。 而 在 物 联 网 的 整个 概念 里 ， 数 据 流 是 整个 网 络 核心 中 的 核心 ， 整 个 物 联 网 就 是 数据 流动 的 网 络 ， 物 联网 所 要 完成 的 是 将 数据 的 收集 、 传 输 、 存 储 、 处 理 、 分 析 与 展示 连接 在 一 起 。 本 书 就 
讲述 了 如 何 设 计 并 构建 一 个 完善 的 物 联网 系统 ， 使 用 JavaScript 作 为 统一 的 编程 语言 在 物 联网 系统 中 实现 数据 的 收集 、 传 输 、 处 理 、 分 展示 。 


作者 是 物流 网 领域 “全 栈 ” 工 程 师 ， 注 定 这 本 书 将 是 一 本 科普 与 实战 相 结合 的 进 阶 读物 。 既 能 从 零 基础 开始 学 习 物 联网 知识 与 技术 ， 又 能 通过 实例 掌握 如 何 搭建 和 开发 完整 的 物 联网 系统 。 


本 书 将 用 Javascript 作 为 链接 ， 带 领 读者 进入 浩瀚 的 物 联 网 世界 。 在 使 用 单一 的 JavaScript 语 言 的 前 提 下 ， 提 供 大 数据 、 机 器 学 习 等 不 同 视角 来 审视 物 联网 中 数据 的 收集 、 传 输 、 处 理 、 分 析 与 展示 的 方 
方面 面 。 


颜 范 ， 中 国 物 联 网 研究 发 展 中 心 副 主任 、 智 能 传感器 中 心 副 主任 及 研究 员 


a} 
HIL 


为 什么 要 写 这 本 书 


Atwood 定 律 : 任何 能 够 用 JavaScript 实 现 的 应 用 系统 ， 最 终 都 必 将 用 JavaScript 实 现 。 


Jeff Atwood 


探索 与 开拓 知识 的 新 疆域 是 我 一 直 以 来 秉持 的 生活 与 学 习 理念 ， 而 撰写 这 本 书 正 是 这 样 的 理念 的 一 次 实践 。 我 一 直 深 信 着 Atwood 定 律 并 身体 力行 贯彻 实践 。JavaScript 是 一 门 古老 的 语言 ， 它 诞生 于 互 
联网 的 第 一 入 口 浏览 器 之 上 ， 几 乎 伴随 着 整个 互联 网 的 发 展 ， 见 证 了 互联 网 的 崛起 过 程 。 在 这 个 物 联 网 的 新 时 代 ， 这 门 互 联网 时 代 的 语言 却 老 树 开 新 花 ， 在 新 时 代 发 挥 新 的 活力 。 正 是 秉持 着 这 样 的 信念 ， 
我 希望 为 JavaScript 的 新 征程 贡献 自己 的 一 份 微薄 力量 ， 这 也 是 我 撰写 本 书 的 第 一 动力 。 


作为 互联 网 技术 的 进化 ， 物 联网 开发 技术 体系 并 非 孤 立 的 技术 栈 ， 而 是 向 上 承接 了 互联 网 技术 、 大 数据 技术 乃至 人 工 智 能 技术 ， 向 下 统领 了 多 入 式 硬件 开发 ， 是 承上启下 的 全 栈 开发 技术 。 作 为 正在 快 
速 进化 中 的 新 互联 网 技术 ， 我 们 并 不 能 预测 物 联网 技术 栈 最 终 的 样子 : 统一 的 开发 语言 是 JavaScript 还 是 Python， 抑 或 其 他 编程 语言 HTTP、Websocket、MQTT、CoAP 等 协议 谁 会 是 最 后 的 赢家 。 随 着 
物 联网 的 不 断 进化 ， 我 们 甚至 可 能 无 法 预测 其 最 终 形态 ， 也 许 物 联网 根本 就 没有 一 个 最 终 的 形态 。 但 是 ， 我 们 仍然 可 以 看 清 物 联网 发 展 的 轨迹 与 必然 趋势 ， 那 就 是 : 开发 技术 栈 必然 向 全 栈 化 方向 发 展 ， 数 
据 流动 必然 向 无 边界 化 方向 发 展 。 互 联网 的 核心 是 数据 的 流动 ， 数 据 的 流动 为 我 们 带 来 了 难以 想象 的 价值 ， 而 物 联 网 又 将 这 一 核心 推 到 了 更 高 的 高 度 ， 打 破 了 互联 网 原 有 的 边界 ， 让 干 干 万 万 节点 设备 中 的 
数据 流动 了 起 来 。 


全 栈 化 的 开发 正 是 顺应 了 这 种 趋势 ， 打 破 了 在 开发 层面 中 那些 阻碍 数据 流动 的 技术 壁垒 ， 将 芯片 、 谋 入 式 、 网 络 、 大 数据 、 人 工 智能 、 信 息 安全 等 诸多 领域 纳入 物 联网 的 全 栈 开 发 中 ， 实 现 端 到 端的 完 
整 解决 方案 ， 真 正 实现 数据 的 流动 并 让 数据 为 人 类 服务 ， 让 我 们 以 更 高 效 、 更 智慧 的 方式 来 发 握 数 据 的 价值 ， 实 现 数据 的 价值 。“ 未 来 已 来 ， 只 是 尚未 流行 ”， 凯 文 -凯利 在 《必然 》 中 如 是 说 。 技 术 发 展 的 
必然 不 是 说 我 们 重复 多 少 次 ， 最 终 都 会 发 展 出 同样 的 结果 ， 而 是 科技 在 本 质 上 的 一 种 偏好 ， 这 种 偏好 使 得 它 有 朝 某 种 特定 方向 发 展 的 趋势 ， 这 种 技术 向 某 一 个 方向 发 展 的 趋势 是 一 个 必然 。 对 于 物 联网 来 
说 ,最 终 使 用 哪 种 编程 语言 或 者 哪 种 协议 不 是 必然 ， 而 真正 的 必然 是 物 联网 开发 的 全 栈 化 以 及 数据 流动 的 无 边界 化 。 而 本 书目 的 之 一 就 是 让 读者 ， 也 包括 笔者 自己 在 物 联网 进化 的 潮流 中 邀 游 ， 学 习 技 术 并 
洞察 一 二 趋势 ， 在 它们 还 未 流行 前 占 得 先 机 。 在 物 联网 进化 的 洪流 中 ， 为 其 发 展 贡献 自己 的 一 份 力量 ， 不 至 于 性 丽 。 


选择 JavaScript 作 为 物 联网 系统 的 开发 语言 也 是 一 种 减法 策略 ,力求 释放 少 的 潜能 ， 取 得 多 的 成 就 。 对 于 物 联网 节点 来 说 ， 开 发 不 仅 有 性 能 的 限制 ， 也 有 成 本 的 限制 。 由 于 性 能 的 限制 ， 大 家 无 法 将 体 
验 做 得 和 iPhone 一 样 好 ; 因 成 本 的 限制 ， 我 们 总 是 希望 以 最 少 的 开发 成 本 及 最 简单 的 系统 设计 完成 尽 可 能 多 的 任务 。 这 导致 在 设计 过 程 中 需 不 断 做 减法 : 通过 使 用 手机 进行 控制 ， 免 去 了 输入 /输出 设备 ; 
通过 使 用 基于 JavaScript 的 HTML5， 免 去 了 开发 与 安装 手机 App; 通过 使 用 Nodejjs 作 为 Web 服 务 器 ， 免 去 了 兼容 性 问题 。 这 样 可 以 专注 于 节点 的 控制 、 图 形 化 与 用 户 体 验 等 ， 因 此 使 用 Javascript 做 全 栈 
发 ， 无 论 在 开发 成 本 还 是 在 性 能 上 都 是 目前 最 优 的 物 联 网 解决 方案 。 而 利用 NPM 等 大 量 现 有 开源 JavaScript 资 源 ， 可 以 非常 容易 而 快速 地 搭建 起 一 整套 物 联网 系统 。 本 书 另 一 个 目的 是 希望 使 用 JavaScript 
来 降低 读者 学 习 物 联网 开发 的 难度 ， 读 者 无 须 掌握 多 种 不 同 的 开发 语言 ， 就 能 够 利用 JavaScript 快 速 开 发 出 完整 的 物 联网 应 用 ， 实 现 从 0 到 1、 从 理论 到 实践 的 跨越 。 


本 书 特色 


正如 Linus 的 名 言 : “Talk is cheep.Show me the code.” 一 样 ， 本 书 最 重要 的 ， 也 是 首要 的 一 个 特点 就 是 注重 实践 ， 特 别 是 代码 实践 。 


从 实践 层面 上 讲 ， 笔 者 不 仅 在 前 面 的 理论 章节 中 给 出 了 大 量 使 用 JavaScript 进 行 物 联网 开发 与 系统 设计 实践 的 例子 ， 而 且 在 实战 篇 中 以 真实 项 目的 完整 设计 作为 内 容 的 主体 ， 将 项 目的 重要 细节 呈现 ， 
以 绘 读 者。 笔者 力求 最 大 化 地 使 用 javaScript， 在 书 中 一 切 适 合 avaScript 来 进行 分 析 与 描述 的 部 分 ， 一 律 使 用 JavaScript 来 实现 。 


从 技术 层面 上 讲 ， 本 书 首次 介绍 了 许多 仍然 处 于 实验 阶段 的 新 技术 ， 其 中 包括 基于 Node.js 的 一 些 大 数据 处 理 技术 (如 Skale) ， 以 及 基于 Javascript 的 深度 学 习 技术 (如 Keras.js) 。 


在 写作 本 书 时 ， 笔 者 对 国内 外 使 用 Javascript 开 发 的 现状 做 了 充分 的 调研 ， 力 求 让 读者 以 一 个 最 前 沿 的 视角 来 学 习 JavasScript 物 联网 开发 ， 与 此 同时 介绍 了 许多 在 Nodejs 中 已 经 非常 成 熟 的 设计 技术 ， 
包括 像 微 服务 这 种 已 经 融入 当前 JavasScript 主 流 设 计 中 的 关键 技术 。 笔 者 所 介绍 的 这 些 技术 也 许 有 一 天 会 落伍 或 者 被 淘汰 甚至 被 她 奔 ， 但 是 通过 介绍 这 些 技术 能 够 让 读者 在 技术 层面 上 开 壮 眼界 或 博 采 众 
长 ， 以 不 变 应 万 变 应 对 物 联 网 这 个 仍然 方兴未艾 、 飞 速 发 展 的 科学 技术 。 


从 开源 精神 层面 上 讲 ， 笔 者 为 本 书 专门 建立 了 一 个 “GitHub 组 织 ”: 


https://github.com/JavaScriptlOT。 其 中 包括 大 量 笔者 收集 到 的 可 以 应 用 到 物 联 网 的 JavaScript 项 目 ， 以 供 读 者 参考 借鉴 与 使 用 。GitHub 项 目 https://github.com/JavaScriptlOT/book 包 括 本 书 所 有 
程序 的 源 代 码 ， 欢 迎 读者 朋友 访问 下 载 。 同 时 笔者 还 开发 与 维护 着 物 联网 开源 项 目 https://github.com/OpenFPGAduino/OpenFPGAduino， 其 中 毫 无 保留 地 开源 了 从 硬件 到 软件 的 所 有 设计 ， 里 面包 含 
了 笔者 在 物 联网 领域 的 开源 实践 与 设想 ， 这 也 是 写作 本 书 的 技术 实现 与 案例 研究 平台 ， 为 读者 提供 了 继续 研究 的 载体 ， 是 本 书 的 另 一 大 特色 。 欢 迎 读者 一 起 参与 开发 开源 物 联网 项 目 ， 为 开源 物 联网 添 砖 加 
瓦 。 


从 适合 读者 阅读 和 掌握 知识 的 结构 安排 上 讲 ， 本 书 分 为 基础 篇 、 数 据 篇 和 实战 篇 。 在 基础 篇 ， 我 们 会 对 物 联网 进行 基础 性 介绍 ， 并 补充 Node.js 的 基础 知识 。 数 据 篇 会 详细 解析 物 联网 在 不 同 层次 的 设计 
与 数据 相关 的 处 理 。 而 在 实战 篇 中 ， 我 们 会 结合 前 面 所 学 的 知识 从 物 联 网 实际 需求 出 发 ， 动 手 设计 我 们 自己 的 物 联 网 系统 ， 从 而 做 到 理论 联系 实际 ， 通 过 实践 加 强 理论 理解 。 


读者 对 象 
' 物 联 网 嵌入 式 软 件 工程 师 
+ 物 联 网 全 栈 软 件 工程 师 
' 物 联网 大 数据 工程 师 


“ 物 联 网 数据 分 析 科学 家 


+ 物 联 网 安全 工程 师 


- 物 联网 运 维 工程 师 

: 物 联网 系统 架构 师 

“ 其 他 对 物 联网 技术 感 兴趣 的 人 员 
如 何 阅读 本 书 


本 书 分 为 3 篇 ， 共 11 章 。 


第 一 篇 (第 1 章 和 第 2 章 ) 是 基础 篇 ， 讲解 JavaScript 物 联网 设计 最 基础 的 内 容 ， 包 括 以 下 内 容 。 


第 1 章 : 讨论 了 物 联 网 进化 的 方向 及 物 联网 的 核心 数据 的 流动 ， 顺 应 这 一 必然 趋势 ， 物 联网 必须 要 采用 端 到 端的 解决 方案 ， 而 JavaScript 是 实现 这 一 方案 的 很 好 选择 。 


第 2 章 : 详细 介绍 了 Nodejs 基 础 及 其 中 的 一 些 关 键 技术 ， 包 括 V8 引 警 、 非 阻塞 式 VO、 事 件 循环 及 包 管 理 ， 同 时 介绍 了 有 目前 流行 的 Nodejjs 微 服务 架构 设计 。 


第 二 篇 是 数据 篇 (第 3 ~ 7 章 ) ， 讲解 使 用 JavaScript 完 成 围绕 着 物 联网 的 数据 收集 、 存 储 、 处 理 、 分 析 、 展 示 交 互 与 安全 在 内 的 与 物 联网 数据 相关 的 方方面面 ， 包 括 以 下 内 容 。 


第 3 章 : 详细 介绍 了 如 何 使 用 Node.js 来 完成 嵌入 式 系统 的 设计 ， 如 何 使 用 JavaScript 完 成 实时 物 联网 数据 收集 ， 以 及 如 何 使 用 物 联 网 协议 实现 与 互联 网 的 互 连 互通 。 


第 4 章 : 详细 介绍 了 如 何 使 用 JavaScript 结 合 大 数据 技术 来 实现 对 呈 指 数 增长 的 物 联 网 数据 进行 存储 与 处 理 ， 并 为 物 联网 实时 数据 处 理 构建 了 基于 Lambda 与 Kappa 的 大 数据 处 理 架构 。 


第 5 章 : 详细 介绍 了 如 何 使 用 JavaScript 来 构建 基于 人 工 智能 与 机 器 学 习 的 物 联网 数据 分 析 平 台 ， 其 中 着 重 介绍 了 目前 比较 热门 的 深度 学 习 算 法 。 


第 6 章 : 详细 介绍 了 如 何 使 用 JavaScript 来 构 物 联网 人 机 交互 界面 。 其 中 将 重点 放 在 了 基于 HTML5 的 Hybrid App 框 架 上 ， 实 现 了 一 次 开发 、 部 署 不 同 设备 的 功能 。 


第 7 章 : 详细 介绍 了 物 联 网 的 安全 问题 、 挑 战 与 解决 思路 ， 以 及 在 使 用 JavaScript 过 程 中 如 何 加 强 安全 。 


第 三 篇 是 实战 篇 (第 8 ~ 11 章 ) ， 以 笔者 真实 的 物 联 网 项 目 为 核心 ， 抽 丝 剥 茧 为 读者 讲述 如 何在 实际 的 项 目 应 用 JavaScript 实 现 物 联网 的 开发 ， 包 括 以 下 内 容 。 


第 8 章 : 以 笔者 的 开源 物 联网 硬件 OpenFPGAduino 为 中 心 ， 详 细 介绍 了 使 用 Javascript 进 行 物 联网 网 关节 点 设计 的 细节 ， 特 别 是 如 何 使 用 Nodejjs 完 成 物 联网 的 开发 。 


第 9 章 : 主要 介绍 了 如 何在 物 联网 开发 中 使 用 云 服务 。 其 中 以 云 软件 开发 环境 及 云 开发 编译 部 署 环境 为 例 ， 为 读者 展示 了 如 何 利用 云 技术 来 提高 物 联网 开发 效率 、 降 低 开发 难度 。 


第 10 章 : 以 物 联网 生物 芯片 实验 测试 系统 为 实例 ， 介 绍 了 在 完整 的 项 目 中 如 何 根据 需求 设计 物 联网 的 每 一 个 子 系统 ， 并 将 这 些 子 系统 组 合成 一 个 完整 的 物 联网 项 目 。 


第 11 章 : 以 物 联网 大 数据 系统 的 设计 为 中 心 ， 重 点 介绍 了 如 何 构建 物 联网 数据 的 汇总 与 分 析 系统 ， 包 括 构建 基于 物 联网 日 志 的 异常 检测 及 网 络 安全 防护 系统 。 


为 方便 读者 阅读 理解 本 书 ， 这 里 绘制 了 本 书 的 各 篇 章 的 技术 关系 与 结构 ， 本 书 的 结构 就 像 一 张 神经 网 络 ， 每 一 篇 分 别 代表 不 同 的 神经 网 络 层 ， 每 一 章 代 表 一 个 神经 元 ， 每 一 个 神经 元 之 间 的 箭头 代表 了 
技术 的 层次 关系 。 


通过 阅读 本 书 ， 读 者 不 仅 能 从 零 基 础 开始 学 习 物 联网 相关 知识 与 技术 ， 而 且 可 以 通过 实例 学 习 掌 握 如 何 搭建 和 开发 完整 的 物 联网 系统 ; 本 书 使 用 javascript 作 为 统一 的 编程 语言 ， 降 低 了 读者 在 学 习 物 
联网 过 程 中 的 难度 ， 避 免 了 不 断 学 习 各 种 编程 语言 而 无 法 集中 精力 探索 物 联网 本 质 的 困扰 ， 也 为 未 来 实际 应 用 与 开发 提供 参考 。 


读者 可 以 依照 章节 顺序 阅读 所 有 章节 ， 也 可 以 根据 结构 关系 图 选择 阅读 连接 数量 最 多 的 重点 章节 。 比 如 ， 第 1 章 与 第 11 章 这 样 贯 穿 全 书 的 章节 ， 以 及 第 2、3、6 章 这 样 被 很 多 章节 用 到 的 技术 ， 之 后 阅读 
剩余 的 章节 。 


读者 也 可 以 首先 阅读 基础 篇 的 所 有 章节 ， 然 后 直接 阅读 实战 篇 ， 以 对 物 联 网 的 开发 有 一 个 具体 形象 的 认识 ; 再 回 过 头 来 阅读 数据 篇 的 理论 部 分 以 加 强 对 知识 的 理解 。 


如 果 你 是 一 名 初学 者 而 且 没有 任何 JavaScript 经 验 ， 请 在 阅读 本 书 之 前 ， 先 学 习 一 些 JavaScript 基 础 理论 与 知识 ，《JavaScript 权 威 指南 》[] 会 是 一 个 不 错 的 选择 。 


勘误 和 支持 


由 于 笔者 的 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 已 请 读者 批评 指正 。 如 果 你 发 现 书 中 或 程序 中 的 错误 或 者 有 更 多 宝贵 意见 ， 欢 迎 在 GitHub 项 目的 问题 
区 https://github.com/jJavascriptlOT/bookVissues 交 流 ， 我 会 尽量 在 线 上 为 读者 提供 最 满意 的 解答 。 同 时 ， 你 也 可 以 通过 邮箱 lizhizhou1983@gmailcom 联 系 到 我 ， 期 待 得 到 你 们 的 真挚 反馈 ， 在 技术 之 
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感谢 上 海 浦 北 信息 科技 有 限 公 司 ， 作 为 公司 的 创始 人 之 一 ， 本 书 中 的 很 多 实践 内 容 都 来 自 于 公司 草创 之 初 的 探索 与 尝试 。 感 谢 我 的 共同 创始 人 李 旭 为 开源 物 联网 平台 OpenFPGAduino 的 硬件 设计 与 研 
发 做 出 的 贡献 ， 以 及 朱 壮 晖 为 硬件 生产 所 做 出 的 努力 。 感 澳 大 家 一 起 完成 了 物 联网 生物 芯片 实验 测试 系统 项 目 。 
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说 以 此 书 献 给 我 最 亲爱 的 家 人 ， 以 及 众多 热爱 物 联网 技术 的 朋友 们 ， 愿 我 们 大 家 的 努力 能 使 婷 婷 这 样 的 下 一 代 拥有 一 个 精彩 纷呈 的 物 联网 世界 ! 


(1) 此 书 己 由 机 械 工业 出 版 社 引进 出 版 ， 书 号 为 978-7-111-37661-3。 


编辑 注 


第 一 篇 ”基础 篇 


-RIE ” 物 联网 系统 基础 


+ 第 2 章 ”Node.js 基 础 


11 万 物 互联 与 互联 网 进化 论 


思科 公司 首先 提出 了 万 物 互 联 的 概念 ， 并 将 其 定义 为 将 人 、 程 序 、 数 据 和 事物 结合 一 起 使 得 网 络 连 接 变 得 更 加 相关 、 更 有 价值 。 万 物 互联 将 信息 转化 为 行动 ， 给 企业 、 个 人 和 国家 创造 新 的 功能 ， 并 带 
来 更 加 丰富 的 体验 和 前 所 未 有 的 经 济 发 展 机 遇 。 万 物 互联 的 提出 极 大 地 推动 物 联网 的 发 展 ， 其 提出 了 物 与 数据 、 人 与 数据 、 人 与 人 等 多 种 网 络 连 接 形态 与 方式 ， 将 物 联 网 扩展 到 更 广阔 的 空间 上 。 在 《互联 
网 进化 论 》 中 ， 刘 峰 老 师 提 出 ， 未 来 互联 网 的 进化 方向 是 向 人 类 大 脑 的 方向 前 进 ， 如 图 1-2 所 示 ， 而 这 一 进化 的 结果 正 是 实现 万 物 互联 的 物 联 网 。 物 联网 通过 数据 将 各 种 传感器 设备 、 生 产 设备 和 人 联系 起 
来 ， 就 如 同人 类 大 脑 将 感官 和 思维 联系 起 来 一 样 。 在 物 联 网 的 整个 概念 里 ， 数 据 流 是 整个 网 络 的 核心 ， 整 个 物 联 网 就 是 数据 流动 的 网 络 ， 物 联网 所 要 完成 的 工作 是 将 数据 的 收集 、 传 输 、 存 储 、 处 理 、 分 析 
与 展示 连接 在 一 起 。 
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图 1-2 ”互联 网 进化 论 上 


HI 引用 刘 锋 ，《 互 联网 进化 论 》， 清 华 大 学 出 版 社 ，2012 年 。 


1.2， 物 联网 的 核心 数据 的 流动 


正如 1.1 节 所 说 物 联网 的 整个 概念 里 ， 数 据 流 是 整个 网 络 核心 中 的 核心 ， 物 联网 的 架构 设计 必然 要 围绕 着 数据 来 进行 ， 为 了 使 数据 能 在 互联 网 上 毫 无 阻碍 地 流动 ， 实 现 万 物 互联 ， 作 为 互联 网 进化 形态 的 
物 联网 在 网 络 架构 上 的 发 展 方向 必然 是 实现 网 络 的 对 称 化 以 及 网 络 的 |P 化 。 


1.2.1 现代 物 联 网 的 对 称 性 


物 联网 起 源 于 无 线 传 感 网 ， 无 线 传 感 网 的 最 初 目的 是 使 用 无 线 技术 将 传感器 连接 起 来 ， 实 现 数据 的 采集 与 传输 。 现 代 物 联网 不 仅 包括 前 端的 数据 采集 ， 中 间 的 传输 还 包括 了 后 端的 处 理 与 可 视 化 ， 如 果 
站 在 网 络 的 传输 线 上 向 两 边 看 会 发 现 一 个 有 趣 的 事实 : 不 论 是 前 端的 网 络 数据 收集 ， 还 是 后 端的 数据 处 理 与 展示 ， 它 们 都 拥有 相似 的 结构 ， 或 者 说 它们 是 对 称 的 ， 如 图 1-3 所 示 。 


在 物 联 网 的 前 端 ， 我 们 需要 


海量 的 节点 来 采集 有 


的 数据 ， 然 后 通过 网 关 汇 总 进入 骨 


FF 网络。 在 网 络 后 端 中 ， 利 
采集 数据 的 分 析 与 可 视 化 能 力 。 有 了 这 样 的 对 称 性 ， 物 联网 技术 可 以 参照 和 借鉴 许多 现 有 的 云 计算 与 大 数据 技术 。 利 


图 1-3 ” 物 联 网 的 对 称 性 


云 计 算 与 大 数据 技术 ， 我 们 会 使 


大 量 的 计算 节点 来 进行 数据 存储 与 计算 ， 提 供 对 所 


这 样 的 对 称 性 ， 我 们 可 以 将 物 联 


做 进一步 的 简化 ， 将 数据 处 理 、 展 示 和 数据 采集 看 


成 同等 的 节点 ， 所 有 网 络 上 的 节点 统一 起 来 既 能 做 数据 处 理 ， 又 能 做 数据 收集 ， 还 能 做 数据 处 理 与 展示 ， 那 么 整个 现代 互联 网 就 是 一 个 大 物 联网 。 举 例 来 说 ， 我 们 每 天 都 在 用 手机 收集 着 海量 数据 ， 并 用 移 
动 网 络 传输 着 数据 ， 最 后 又 用 手机 处 理 这 些 数 据 。 

利用 网 络 的 对 称 性 ， 我 们 很 容易 将 目前 在 云 计算 与 大 数据 里 应 用 成 熟 的 技术 直接 迁移 到 物 联 网 应 用 中 ， 这 是 非常 自然 的 可 行 选择 。 通 过 选择 这 样 的 技术 演进 路 线 ， 不 仅 能 够 有 效 利 用 现 有 的 ， 已 经 通过 
验证 的 解决 方案 ， 而 且 相 应 的 研发 成 本 也 是 最 低 的 。 而 只 有 实现 物 联网 的 IP 化 改造 才能 实现 以 上 目的 ， 因 为 现 有 的 大 数据 技术 和 云 计算 技术 全 部 是 架构 在 TCP/IP 之 上 的 。 一 系列 耳熟能详 的 技术 包括 JSON 
aae RESTful API、 消 息 总 线 、P2P、MapReduce、Master 选 举 、 虚 拟 化 等 都 可 以 从 云 计算 、 大 数据 那里 搬 到 物 联 网 上 。 举 例 来 说， 我 们 可 以 利用 虚拟 化 技术 ， 将 任何 一 个 传感器 虚拟 化 为 一 个 独立 
的 物 联 网 节点 ， 这 样 一 些 原本 不 能 传输 IP 协 议 的 网 络 或 总 线 也 能 被 IP 化 ， 实 现 通过 IP 地 址 进行 全 球 访问 ， 真 正 消除 数据 孤岛 ， 实 现 数据 的 流动 。 即 使 那些 无 法 使 用 IP 技 术 的 物 联网 ， 为 了 数据 互联 互通 也 会 
通过 网 关 将 网 络 内 的 数据 转发 到 IP 网 络 上 。 


有 了 基本 的 大 数据 处 理 ， 机 器 学 习作 为 现在 最 热门 的 处 理 大 数据 的 手段 是 不 得 不 提 的 ， 而 为 了 能 


不 难 理解 物 联 网 的 必然 趋势 是 使 


让 存储 在 大 数据 平台 上 的 数据 价值 获得 增值 ， 使 


机 器 学 习 了 。 由 于 JavaScript 在 浏览 器 端的 支配 地 位 ,使 


机 器 学 习 的 小 程序 ， 同 样 ， 也 可 以 将 这 些 机 器 学 习 库 运行 在 Nodejs 上 ， 使 得 物 联网 节点 也 具有 一 定 的 机 器 学 习 能 力 及 数据 处 理 能 力 。 更 近 一 步 


支持 JavaScript 语 言 直接 对 显卡 进行 操作 ， 利 
JavaScript 进 行 深度 学 习 编程 也 有 其 优势 ， 这 3 


Bie aes 


事实 上 的 标准 ， 通 过 


H 


要 是 JavaScript 在 数据 可 视 化 方面 的 成 功 ， 
avaScript 来 访问 数据 中 心 的 机 器 学 习 资源 也 非常 方便 [1]。 


既然 使 用 机 器 学 习 来 为 物 联 


这 一 特性 ， 机 器 学 习 算法 特别 是 深度 学 习 算 ; 
能 够 很 方便 


JavaScript 做 机 器 学 习 的 尝试 也 非常 多 ， 有 了 JavaScript 
, Wel 


去 就 能 够 利 


显卡 进行 加 速 。 当 然 使 
也 可 视 化 机 器 学 习 的 学 


JavaScript 直 接 控制 


机 器 学 习 来 对 大 数据 进行 分 析 是 必然 的 选择 ， 这 也 就 
的 机 器 学 习 库 ， 就 可 以 非常 简单 地 在 浏览 器 上 运行 一 些 
bG! 是 目前 在 Javascript 领 域 比 较 热门 的 领域 ，WebGL 
深度 /机 器 学 习 集群 也 是 一 个 不 错 的 选择 ， 使 


习 过 程 与 结果 ， 方 便 以 远程 方式 来 控制 机 器 学 习 集 群 ， 而 RESTful API 已 经 成 为 


发 物 联网 的 库 与 平台 


machine learning (ht 


的 开 箱 可 用 的 机 器 学 习 算 ; 


多 通 


线性 回归 、K 阶 均值 聚 类 。 


3) Convnetijs (ht 


2) Shaman (https://github.com/luccastera/shaman 


] 在 物 联网 应 


机 器 学 习 提供 了 可 行 的 方向 。 


网 进行 数据 处 理 是 必然 趋势 ， 那 么 显然 我 们 也 可 以 找到 大 量 的 这 类 开源 软件 ， 并 将 这 些 软件 应 
， 这 些 库 与 平台 为 我 人 


到 物 联网 应 


中 。 下 


5://github.com/junku901/machine 1g) 是 完全 
去 ， 包括 光 辑 回 、 多 


层 感知 器 、 支 持 向 量 机 、K 阶 均值 聚 类 决策 树 等 常 


Javascript 写 成 的 机 器 学 习 库 ， 既 可 以 运行 在 济 
用 的 机 器 学 习 算 法 。 


aa, 


对 神经 网 络 学 习 过 程 的 可 rats 画 呈 现 与 angga. 对 理 角 神经 网 络 机 器 学 习 有 非常 好 的 帮助 


Javascript 写 成 的 神经 网 络 机 器 学 习 库 ， 


可 以 运行 在 浏览 器 或 Nodejs 中 。 


面 就 是 笔者 收集 到 的 适合 物 联网 ， 特 别 是 JavaScript 开 


也 可 以 运行 在 Node.js 中 。machine_learning 提 供 了 许 


JavaScript 写 成 的 机 器 学 习 库 ， 既 可 以 运行 在 浏览 器 中 ， 也 可 以 运行 在 Node.js 中 。Shaman 提 供 了 一 些 简 单 的 机 器 学 习 算 法 。 包 括 


Convnetjs 提 供 了 许多 有 趣 的 例子 ， 在 浏览 器 上 实现 了 


4) Synaptic (https://github.com/cazala/synaptic) 也 是 一 个 完全 使 用 JavaScript 写 成 的 神经 网 络 学 习 库 ， 同 样 可 以 运行 在 浏览 器 与 Node,js 中 ， 提 供 了 丰富 的 神经 网 络 结构 ， 不 仅 包 括 多 层 感知 器 ， 


也 包括 在 时 间 序 列 处 理 上 大 获 成 功 的 长 短 记忆 模型 。 


后 在 集群 上 执行 这 些 管道 的 能 力 来 实现 的 。 用 户 可 以 获得 关于 任何 执行 状态 的 实时 反馈 。 


5) DeepForge (https://github.com/deepforge-dev/deepforge) 是 一 个 开源 可 视 化 开发 环境 ， 用 于 深度 学 习 ， 为 创建 深度 学 习 模型 提供 端 到 端 支持 。 这 是 通过 提供 设计 架构 、 创 建 培训 管道 ， 然 


6) 作为 深度 神经 网 络 学 习 方向 最 重要 、 最 热门 的 项 目 ，Google 的 TensorFlow (https://www.tensorflow.org) 是 深度 学 习 开源 的 里 程 碑 。TensorFlow 的 开源 使 得 使 用 深度 学 习 来 做 数据 处 理 已 经 不 


再 是 一 件 非常 高 难度 的 事情 。node-tensorflow (https://github.com/node-tensorflow/node-tensorflow) 可 基于 Node.js 来 操作 TensorFlow 完 成 机 器 学 习 。 


7) 同样 是 由 Google 发 起 的 深度 神经 网 络 学 习 库 ， 和 TensorFlow 不 同 的 是 ，Deeplearnjs (https://github.com/PAIR-code/deeplearnjs) 在 设计 上 完全 基于 浏览 器 ， 但 是 和 其 他 JavaScript 神 经 网 络 
库 不 同 的 是 ， 其 提供 了 WebGL 的 绑 定 ， 实 现 了 使 用 GPU 来 加 速 深度 神经 网 络 的 训练 。 与 此 同时 ， 它 还 提供 了 将 TensorFlow 训 练 好 的 模型 直接 导入 的 能 力 。 


8) Keras 是 目前 支持 后 端 最 多 的 机 器 学 习 库 ， 支 持 包 括 MXNet、Deeplearning4j、TensorFlow、CNTK 或 Theano 在 内 的 几乎 所 有 主流 的 机 器 学 习 


Æ, Keras.js (https://github.com/transcranial/keras-js) 是 一 种 使 用 JavaScript 实 现 的 后 端 ， 能 够 在 浏览 器 与 Node.js 上 直接 使 用 训练 好 的 Keras 网 络 模型 。 


以 上 就 是 一 些 使 用 JavaScript 技 术 的 机 器 学 习 解 决 方案 ,我 们 将 在 第 5 章 深入 学 习 其 中 的 一 些 技术 与 实现 。 


IU) 参考 https://www.burakkanber.com/blog/machine-learning-in-other-languages-introduction。 


1.6 ”本章 小 结 


在 本 章 中 ， 我 们 对 物 联网 进行 了 概述 ， 从 万 物 互联 与 互联 网 进化 论 开 始 研究 了 物 联网 发 展 的 方向 及 其 对 互联 的 作用 ， 依 托 万 物 互联 与 互联 网 进化 论 ， 


我 们 得 出 了 物 联网 的 核心 是 数据 的 流动 ， 只 有 当 物 


联网 的 数据 流动 起 来 才能 实现 数据 到 价值 的 闭环 转化 ， 源 源 不 断 地 让 物 联网 输出 数据 ， 并 源源 不 断 地 将 这 些 数据 转化 成 真正 的 价值 。 而 因为 流动 的 重要 性 ， 物 联网 越 来 越 呈现 出 对 称 性 与 |P 化 ， 对 称 性 带 来 


技术 从 云端 向 节点 端的 迁移 ， 而 IP 化 完成 了 数据 从 节点 端 向 云端 的 迁移 。 在 这 样 的 趋势 下 ， 物 联网 端 到 端 统一 解决 方案 就 变 得 十 分 重要 ， 而 JavaScript 不 仅 能 完成 节点 的 开发 ， 而 且 能 完成 客户 端的 开发 ， 成 
为 了 物 联网 端 到 端 解 决 方案 一 个 很 好 的 选择 ， 并 且 我 们 给 出 了 许多 基于 Javascript 的 开源 库 与 平台 来 解决 物 联网 端 到 端的 开发 需求 。 从 端 到 端的 物 联网 解决 方案 出 发 ， 我 们 讨论 了 物 联网 大 数据 的 必然 趋 


势 ， 发 现 JavaScript 适 合 于 物 联网 的 大 数据 开发 ， 同 时 我 们 也 给 出 了 许多 适合 于 JavaScript 的 大 数据 开源 解决 方案 ， 以 供 参 考 。 最 后 我 们 讨论 了 物 联网 机 器 学 习 的 必然 趋势 ， 认 识 到 有 了 物 联网 大 数据 平台 后 
要 让 数据 获得 增 量 价值 ， 使 用 机 器 学 习 技术 来 进行 分 析 是 一 个 非常 有 吸引 力 的 选择 。 同 样 ， 我 们 也 给 出 了 不 少 基于 Javascript 的 开源 机 器 学 习 解决 方案 与 平台 ， 为 读者 实现 机 器 学 提供 了 参考 。 在 接 下 来 的 
章节 ， 我 们 会 尽 可 能 全 面 深入 分 析 本 章 给 出 的 JavaScript 库 、 解 决 方案 与 平台 ， 通 过 对 开源 软件 的 代码 分 析 以 及 通过 物 联 网 系统 设计 实例 的 学 习 来 帮助 读者 掌握 完整 的 基于 JavaScript 的 端 到 端 物 联网 全 栈 开 


发 。 


第 2 章 ”Nodejs 基 础 


Nodejs 是 一 个 使 用 事件 驱动 、 非 阻塞 式 |/O 的 模型 ， 轻 量 又 高 效 ， 是 专 为 网 络 服务 而 设计 的 JavaScript 执 行 环境 。 随 着 Node.js 的 快速 发 展 ， 其 已 经 逐渐 跨 出 了 仅仅 应 用 于 网 络 服务 器 的 范畴 ， 本 书 的 主 


要 核心 大 部 分 是 基于 Nodejs 来 介绍 的 ， 所 以 有 必要 一 开始 就 对 Nodejs 做 一 个 清晰 的 介绍 。 图 2-1 所 示 是 Nodejs 的 系统 框图 ， 整 个 Nodejs 由 标准 库 、V8 引 擎 ， 以 及 用 Libuv 实 现 的 事件 循环 与 非 阻塞 式 MO 


组 成 。 下 面 我 们 来 依次 讲解 Node.js 中 的 这 些 模块 。 


Node.js 系统 


Libuv (异步 I/O) 
Node.js 绑 定 事件 队列 


(NODE.API) 阻 


V8 
(JavaScript 引擎 ) 


图 2-1 Node.js 的 系统 框图 


2.2 V83| 掌 


工作 线程 
塞 操作 | FILE SYSTEM ! 


1 1 
上 4 


V8 是 Google 为 Chrome 浏 览 器 设计 的 JavaScript 执 行 引擎 ， 其 初衷 与 目标 是 为 Chrome 设 计 一 个 领先 行业 的 高 性 能 JavaScript 引 警 。 从 此 Javascript 被 分 为 前 V8 时 代 与 后 V8 时 代 。 在 前 V8 时 


代 ，Javascript 是 一 门 纯 解释 性 质 的 动态 脚步 语言 ， 浏 览 器 一 行 一 行 地 执行 Javascript。 在 后 V8 时 代 ，Javascript 成 为 一 种 类 似 Java 的 编译 语言 ， 在 V8 之 
接 编译 成 机 器 指令 直接 让 CPU 执行 。 


@ 故事 小 知识 浏览 器 JavaScript 发 展 简 史 


后 ,现代 浏览 器 (包括 新 的 IE) 都 是 将 JavaScript 直 


1995 年 ， 当 时 在 网 景 公司 就 职 的 布 兰 登 . 艾 克 正 为 Netscape Navigator 2.0 浏 览 器 开发 一 门 名 为 LiveScript 的 脚本 语言 ， 后 来 由 网 景 公司 与 异 阳 电脑 公司 组 成 的 开发 联盟 为 了 让 这 门 语言 搭 上 Java 这 个 编程 语 


uh 


“ 热 词 ”， 将 其 临时 改名 为 JavaScript， 上 日 后 这 成 为 大 众 对 这 门 语言 有 诸多 误解 的 原因 之 一 ， 虽 然后 来 反复 强调 JavaScript 和 Java 并 没有 任何 联系 ， 然 而 发 明 人 和 这 些 公司 也 许 没 有 想到 ， 到 了 后 V8 时 


代 ，JavaScript 越 来 越 像 Java， 程 序 员 们 越 来 越 多 地 使 用 JavaScript 来 完成 原来 使 用 Java 来 完成 的 工作 ，JavaScript 真 的 成 为 Script 版 的 Java。 其 实在 V8 开发 小 组 的 一 群 程序 语言 专家 中 ， 核 心 工程 师 Lars B 水 之 前 研发 


了 HotSpot， 这 是 用 在 Sun Microsystems 公 司 开发 的 Java 虚 拟 机 器 (VM) 的 加 速 技 术 ， 所 以 V8 这 一 Google 工 程 师 实 现 的 创新 其 实 或 多 或 少 基于 Java 语 言 的 探索 与 发 展 。 最 终 凭借 V8 这 一 创新 ，Chrome 浏 览 器 坐 上 
浏览 器 市 场 占有 率 第 一 的 宝座 。 


Java 语 言 中 有 两 个 过 程 : 一 个 是 编译 ， 将 Java 源 代码 编译 成 Java 字 节 码 (一 种 独立 于 机 器 的 程序 编码 ) ; 另 一 个 是 执行 ， 将 Java 字 节 码 翻译 成 对 应 执行 平台 的 机 器 码 执行 。Java 字 节 码 在 执行 过 程 中 有 
两 种 模式 ， 最 初 通过 类 似 脚 本 的 语言 逐条 翻译 执行 ， 后 来 又 引入 了 编译 执行 ， 即 将 经 常 执行 的 Java 字 节 码 做 即时 编译 ， 编 译 成 机 器 码 ， 加 速 执行 。V8 引 警 借 鉴 了 Java 的 编译 执行 过 程 ， 也 引入 Java 的 虚拟 机 
概念 ， 将 整个 V8 引擎 打造 成 可 以 执行 JavaScript 的 虚拟 机 。 同 时 ，V8 借 鉴 了 Java 虚 拟 机 的 内 存 管理 技术 ， 采 用 垃圾 回收 (Garbage Collection, GC) 技术 来 回收 不 再 需要 的 内 存 空间 。 每 个 V8 引 擎 都 是 一 
个 具有 独立 地 址 空间 的 虚拟 机 ， 不 同 的 JavaScript 程 序 在 不 同 的 虚拟 机 中 执行 ， 互 不 干扰 。 大 大 提高 了 JavaScript 的 稳定 性 。 鉴 于 Java 与 V8 之 间 的 关系 ， 所 以 在 接 下 来 的 讲解 中 ，V8 虚 拟 机 的 很 多 部 分 是 和 
Java 虚 拟 机 十 分 类 似 的 。 


V8 引擎 的 性 能 保障 来 源 于 其 内 置 的 JavaScript 编 译 器 ， 相 比 于 Java 的 解释 执行 与 即时 编译 ，V8 采 用 了 和 C# 一 样 的 一 次 编译 技术 ， 也 就 是 V8 采用 的 编译 执行 策略 是 在 JavaScript 从 服务 器 端 完成 加 载 后 ， 
预先 对 所 有 的 JavaScript 代 码 进行 编译 。 如 果 分 析 V8 源 代码 ， 可 以 发 现 V8 仍 然 有 类 似 Java 字 节 码 的 中 间 过 程 ， 但 是 从 外 部 看 ，V8 是 直接 将 JavaScript 编 译 成 本 地 的 机 器 语言 的 ， 然 后 通过 CPU 直 接 运行 这 些 
机 器 码 。 执 行 过 程 中 ， 编 译 器 不 再 对 执行 过 程 干 预 。 所 以 ， 在 V8 中 ， 编 译 与 执行 是 两 个 不 同 的 部 分 。 正 是 由 于 采用 一 次 编译 技术 ，V8 能 够 将 所 有 现代 编译 器 的 优化 能 力 都 应 用 到 JavaScript 的 编译 中 ， 实 现 
对 JavaScript 的 高 度 优化 。 如 果 读 者 有 能 力 阅 读 V8 的 源 代码 ， 可 以 清晰 地 看 到 V8 的 设计 完全 遵循 了 现代 编译 器 的 设计 思路 ， 包 括 前 端 语法 树 生产 、 中 端 语法 树 到 中 间 语 言 的 翻译 、 中 间 语 言 优 化 、 后 端 中 间 
语言 到 机 器 语言 的 编译 等 部 分 。 图 2-2 是 V8 的 编译 执行 示意 图 。 
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什么 是 Code? 


遇 到 需要 动态 处 理 的 地 方 跳 转 回 运行 时 


存储 在 普通 内 存 中 
LOAD_FAST © (this) 
LOAD_ATTR © (x) f_ 
RETURN_VALUE ii 虚拟 机 
A Kakar rù 由 语言 虚拟 机 负责 
ai = 逐条 解释 执行 
function getx() { | pf 
return this.x; |< 编 i HA JavaScript 引擎 的 常见 实现 方法 
} | Sa 
=" ea 存储 在 可 执行 内 存 中 
JavaScript 代码 Mi 
br test D dl, Oxl i 
` jz LoadIC_Miss ae | 
cmp [edx - 1], Ox4eclb2a7 虚拟 机 | 
jnz LoadIC_Miss i 
mov eax, [edx + QOxb] | 
eee ret a 
arr CPU 
al 机 器 码 (x64, ARM $) 
这 些 就 是 代码 Machine Code (x64, ARM, .etc) 跳 转 到 机 器 码 开头 ， : 
针对 CPU 指令 集 与 架构 生成 的 原生 代码 由 CPU 执行 ' 


V8 的 编译 执行 


图 2-2 V8 的 编译 执行 


但 是 像 JavaScript 这 种 脚本 语言 有 一 个 不 同 于 编译 语言 的 特点 ， 就 是 它 的 弱 类 型 。 换 句 话说 ， 某 个 变量 属于 哪 种 类 型 只 有 在 JavaScript 语 言 运行 过 程 中 才能 最 终 确定 。V8 的 编译 器 为 解决 这 种 问题 ， 引 入 
了 内 联 缓存 技术 来 加 速 这 类 在 编译 期 不 能 被 优化 的 代码 。 举 一 个 简单 的 例子 ， 下 面 是 一 个 JavaScript 读 取 属性 的 例子 : 


function f(v) { return v.x;} 


对 于 V8 的 编译 器 来 说 ， 仅 仅 通过 静态 的 编译 过 程 无 从 得 知 是 要 读 取 一 个 对 象 自己 的 属性 (对象 本 身 所 具有 的 属性 ) ， 还 是 原型 对 象 的 属性 (来 自 于 原型 链 上 原型 的 属性 ) ， 还 是 一 个 getter 方 法 ， 抑 或 
浏览 器 的 某 些 自 定义 回调 ， 这 个 属性 还 可 能 根本 不 存在 。 如 果 V8 要 在 编译 的 代码 中 处 理 所 有 这 些 情况 ， 即 使 一 个 简单 的 操作 也 会 引发 上 百 条 指令 。 为 了 优化 这 种 情况 ，V83 引 擎 需要 对 这 个 操作 进行 猜测 。 
V8 引入 内 联 缓存 机 制 ， 将 猜测 最 可 能 的 几 个 方法 放 到 内 联 缓存 中 (类似 于 处 理 器 使 用 高 速 缓存 来 提高 指令 命中 率 ) ， 如 果 V8 猜 对 了 就 能 大 大 提高 这 类 访问 的 速度 ， 如 果 没 猜 对 ， 那 么 继续 寻找 、 执 行 并 发 现 
正确 方法 ， 这 样 访问 代价 也 不 是 很 高 。 


2.2.2 ”垃圾 回收 


对 于 一 门 编程 语言 ， 内 存 的 管理 是 必须 要 有 的 功能 。 内 存 管理 策略 有 两 种 : 一 种 是 C/C++ 的 由 程序 员 自己 来 控制 内 存 的 分 配 与 释放 ; 另 一 种 是 Java 的 由 程序 员 来 分 配 内 存 而 使 用 垃圾 回收 系统 来 释放 不 
再 使 用 的 内 存 。 脚 本 语言 由 于 不 能 进行 内 存 的 控制 ， 所 以 其 内 存 管理 策略 只 能 选择 与 java 相似 的 管理 策略 ， 即 采用 垃圾 回收 系统 管理 内 存 。 由 于 V8 的 设计 导向 是 性 能 优先 ， 为 保证 快速 的 对 象 分 配 、 缩 短 由 
垃圾 回收 造成 的 停顿 以 及 避免 内 存 碎片 ， 其 采用 了 一 个 这 样 的 垃圾 回收 器 [ID 


IR] 


1) 停顿 : 在 执行 垃圾 回收 操作 的 时 候 会 中 断 程序 的 执行 。 图 2-3 是 V8 垃圾 回收 器 的 停顿 示意 图 。 


GC 暂停 的 类 型 


stop-the-world 程序 执行 并 发 式 (concurrent) 
一 个 GC 周期 一 个 GC 周期 一 个 GC 周 期 7 一 个 GC 周期 一 个 GC 周期 一 个 GC 周期 
¢ r] r 
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增 量 式 (incremental) 并 行 式 paraller， 假 设 也 并 发 ( conccurent) 
一 个 GC 周期 一 个 GC 周期 ”一 个 GC 周期 一 个 GC 周期 一 个 GC 周期 一 个 GC 周期 
it LU H H H | | | | S S) T 
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V8 对 GC 的 不 同 阶段 采用 不 同 的 策略 ， 是 上 述 几 种 类 型 的 混合 体 


图 2-3 V8 垃圾 回收 的 停顿 


2) 弱 分 代 假设 : 对 象 的 生命 周期 符合 著名 的 帕 累 托 分 布 ， 即 2/8 法 则 。80% 的 对 象 死 得 早 ， 即 刚 被 分 配 出 来 ， 很 快 就 不 再 需要 了 。 剩 下 的 20% 对 象 ， 通 常 倾向 于 永生 ， 因 此 在 大 部 分 情况 下 ，V8 每 个 垃 
圾 回收 周期 只 处 理 整个 对 象 堆 的 一 部 分 ， 也 就 是 那些 年 龄 比较 年 轻 的 对 象 ， 这 让 程序 中 断 造 成 的 影响 得 以 减轻 。 图 2-4 是 对 象 弱 分 代 假设 示意 图 。 


对 象 数量 


对 象 寿命 


图 2-4 对象 弱 分 代 假设 示意 图 


3) 准确 式 垃圾 回收 : V8 通 过 数据 的 最 后 一 位 来 标记 数据 是 指针 还 是 数据 实现 了 对 指针 的 标记 ，V8 总 是 知道 内 存 中 所 有 对 象 和 指针 所 在 的 位 置 ， 这 避免 了 非 准确 式 垃圾 回收 器 普遍 存在 的 错误 ， 把 对 象 
当 作 指针 而 造成 的 内 存 溢出 的 情况 。 准 确 式 垃圾 回收 器 避免 了 非 准确 式 垃圾 回收 器 带 来 的 浆 端 ， 能 够 尽早 无 遗漏 地 回收 内 存 ， 并 且 能 够 在 垃圾 回收 过 程 中 移动 对 象 以 缓解 内 存 碎片 问题 。 


目前 V8 对 垃圾 回收 机 制 也 在 不 断 改进 ， 正 在 朝 着 增 量 、 并 发 、 并 行 的 方向 前 进 ， 并 在 垃圾 回收 的 不 同 阶段 进行 不 同 的 优化 ， 在 未 来 V8 可 能 会 对 物 联 网 应 用 做 进一步 的 优化 。 读 者 可 以 在 运行 Nodejs 时 
加 上 --trace_gc--trace_gc verbose--print_cumulative_gc_stat 参 数 来 观察 Node.js 详 细 的 垃圾 回收 行为 。 


[由 参考 https://segmentfault.com/a/1190000000440270。 
[2] 参考 https:/ /alinode.aliyun.com/blog/37。 
[3] 参考 https:/ /alinode.aliyun.com/blog/38。 


2.3” 非 阻塞 式 |/O 


1/O 操 作 有 两 种 ， 一 种 是 阻塞 式 的 ， 另 一 种 是 非 阻塞 式 ， 这 两 种 模式 各 有 特点 。 阻 塞 式 |/O 就 是 在 CPU 进 行 |/O 操 作 的 时 候 ， 首 先 发 起 |/O 请 求 ， 然 后 等 待 |/O 操 作 完成 后 ， 接 着 继续 执行 当前 的 任务 并 往 
下 运行 。 阻 塞 式 MO 的 好 处 是 它 的 编程 模型 简单 ， 大 部 分 编程 语言 原生 支持 阻塞 VO， 不 需要 设计 任何 复杂 的 库 函 数 或 操作 系统 支持 就 能 完成 阻塞 VO 的 操作 。 但 是 阻塞 式 /O 操 作 是 非常 浪费 资源 的 ， 虽 然 现 
代 操 作 系 统 提供 的 多 线程 与 多 进程 的 支持 在 很 大 程度 上 避免 了 资源 的 浪费 ， 但 是 仍然 会 在 进程 、 线 程 切 换 及 阻塞 状态 查询 方面 花费 不 少 CPU 周期 。 那 么 为 什么 阻塞 式 MO 有 这 样 的 问题 ， 其 仍然 是 主流 编程 设 
计 语 言 的 第 一 选择 呢 ? 其 实 这 需要 我 们 从 处 理 器 硬件 以 及 程序 的 本 质 来 看 问题 。 


全 小 故事 小 0 识 处理 器 发 展 简 史 


在 处 理 器 硬件 的 体系 架构 中 ， 其 实 可 以 不 区 分 什么 是 I/O 〇 操作 ， 什 么 是 内 存 操作 。 这 两 种 操作 完全 可 以 用 一 种 指令 、 一 种 操作 来 完成 ， 这 也 是 为 什么 很 多 时 候 I/O 〇 操作 会 被 说 成 内 存 I/ 〇 操作 的 原因 。 因 
为 对 CPU 来 说 ，I/O 〇 操作 其 实 就 是 在 内 存 的 菜 一 个 地 址 写 上 一 个 数 或 读 取 一 个 数 。 而 内 存 操 作 其 实 是 阻塞 式 的 ， 在 早期 CPU 中 ， 内 存 的 速度 和 CPU 是 一 致 的 ，CPU 能 在 一 个 时 钟 周期 读 取 内 存 的 内 容 ， 所 以 当 


时 并 不 存在 内 存 阻塞 问题 ， 当 处 理 器 速度 开始 飞速 发 展 时 ， 内 存 的 速度 没有 跟 上 处 理 器 的 发 展 速度 。 为 此 ， 处 理 器 引入 了 缓存 机 制 ， 利 用 一 部 分 小 而 快 的 存储 器 来 缓存 一 些 常用 的 程序 代码 与 数据 ， 而 当 缓 
存 中 没有 所 需要 的 数据 时 ， 处 理 器 就 必须 停顿 下 来 ， 等 待 内 存 数 据 的 载 入 ， 这 被 称 为 内 存 阻塞 。 而 I/O 操 作 其 实 是 一 个 速度 更 慢 的 内 存 操作 。 随 着 处 理 器 速度 的 进一步 提高 ， 特 别 是 在 处 理 中 应 用 流水 线 技 
术 后 ， 处 理 器 速度 或 者 主 频 有 了 飞速 的 发 展 ， 在 处 理 器 上 不 得 不 使 用 多 级 缓存 来 提高 处 理 器 访问 内 存 的 性 能 以 减少 处 理 器 内 存 阻塞 的 时 间 。 到 最 后 ， 为 了 提高 处 理 器 的 利用 率 ， 需 要 把 处 理 器 等 待 内 存 加 载 
数据 到 缓存 的 时 间 也 利用 上 ， 于 是 出 现 了 现代 的 超标 量 处 理 器 。 所 谓 标量 处 理 就 是 每 次 顺序 执行 一 条 指令 ， 而 超标 量 就 是 完全 乱 序 执行 ， 并 同时 执行 多 条 指令 。 最 典型 的 就 是 加 载 指令 ， 当 使 用 超标 量 技术 
时 ， 加 载 数据 或 程序 的 指令 可 以 提前 执行 ， 这 样 当 处 理 器 执行 到 需要 数据 的 指令 时 ， 加 载 数据 的 指令 正好 已 经 完成 了 ， 从 而 省 去 了 加 载 数据 的 时 间 。 


为 了 克服 内 存 阻 塞 ， 处 理 器 发 展 出 了 超标 量 技术 ， 类 似 的 是 ， 软 件 为 了 克服 MO 阻塞 ， 研 发 出 了 非 阻塞 式 MO 机 制 。 其 原理 与 超标 量 处 理 器 类 似 ， 在 处 理 器 遇 到 I/O 操 作 时 ， 不 阻塞 处 理 器 的 继续 运行 ， 
将 后 面 要 运行 的 程序 提前 执行 ， 这 样 当 MO 操作 完成 时 ， 处 理 器 再 执行 MO 的 响应 函数 ， 这 样 省 去 了 等 待 MO 操 作 所 花费 的 时 间 ， 既 提高 了 处 理 器 的 利用 率 ， 也 提高 了 程序 的 性 能 ，JavaScript 最 初 是 作为 浏览 
器 的 事件 响应 处 理 脚本 来 设计 的 ， 所 以 Javascript 天 然 地 支持 非 阻塞 式 MO 操 作 ， 并 且 为 了 网 页 的 体验 几乎 完全 杜绝 使 用 阻塞 式 MO， 因 为 JavaScript 是 单线 程 的 ， 阻 塞 式 MO 会 使 浏览 器 发 生 响应 停顿 ， 而 V8 
的 Nodejjs 也 继承 了 这 一 点 。 


虽然 非 阻 塞 式 MO 是 有 利于 程序 性 能 的 ， 但 是 它 有 一 个 缺点 ， 造 成 了 它 无 法 替代 阻塞 式 VO。 这 个 缺点 就 是 它 破坏 了 程序 是 线性 执行 的 这 一 假设 ， 引 入 非 阻塞 式 /MO， 程 序 将 变 成 一 个 完全 乱 序 执行 的 状 

态 ， 而 人 类 阅读 是 遵循 从 前 往 后 的 线形 模式 ， 阅 读 乱 序 执行 的 程序 会 是 不 小 的 困难 。 当 你 写 一 段 非 阻 塞 式 VO 的 程序 时 ， 你 不 知道 所 写 的 每 一 段 程序 间 的 前 后 执行 顺序 ， 而 为 了 强行 保证 一 个 处 理 流程 的 有 序 
性 ， 必 须 对 处 理 逻 辑 做 一 个 深度 的 谋 套 。 因 为 在 非 阻塞 的 乱 序 执行 环境 下 ， 只 有 内 套 在 某 一 函数 的 回调 函数 里 ， 逻 辑 上 才能 保证 函数 的 执行 顺序 。 而 一 段 回调 函数 庶 套 在 另 一 段 回调 函数 里 ， 这 样 的 反复 族 
套 被 称 为 JavaScript 回 调 地 狱 : 


var fs = require("fs"); // 导 入 文件 模块 
fs.open("server.log", 'r', function(err, fd){ // 打 开 文 件 ， 处 理 回调 
if (err) throw err; // 遇 到 错误 抛 出 异常 
var length = 100; // 读 取 文 件 长 度 
var position = 0; ”// 读 取 文 件 偏 移 量 
var buffer = new Buffer (length); // 申 请 缓存 空间 
fs.read(fd, buffer, 0, length, position, function(err, bytes, data) {// 读 取 文 件 ，// 处 理 回 调 
if (err) throw err; 
console.1og({ // 输 出 读 到 的 结果 
log: data.toString(), 
length: bytes 
he 
}) 


Nodejs 在 服务 器 端 有 大 量 的 关联 MO 操作 ， 所 以 回调 地 狱 在 Nodejjs 程 序 中 非常 普遍 。 回 调 地 狱 有 大 量 的 谋 套 使 得 程序 的 可 读 性 非常 差 ， 为 了 解决 这 种 问题 ， 需 要 引入 Promise 设 计 模 式 。 它 代表 了 一 种 
可 能 会 长 时 间 运 行 而 且 不 一 定 获 得 完整 的 操作 的 结果 。 这 种 模式 不 会 阻塞 和 等 待 长 时 间 的 操作 完成 ， 而 是 返回 一 个 代表 了 承诺 (promise) 结果 的 对 象 : 


var promise = require ("bluebird"); // 使 用 bluebird promise 模 块 
var fs = promise.promisifyAll (require('fs'), { // 为 Node.Js fs 包 封 装 异步 promise 
filter: function (name) { 
return ! (name === "read" name 
// 不 包装 read 与 write， 因 为 Ran. T] 
T. 


T: 
fs.readAsync = promise.promisify(fs.read, { multiArgs: true }); // 包 装 异步 read 
fs.writeAsnyc = promise.promisify(fs.write, { multiArgs: true }); 
// 包 装 异 步 write 
fs.openAsync ("server.log", 'r') // 异 步调 用 promise 打 开 文件 
.then (function (fd) { / FAM Sesh tabs Be 
var length = 100; 
var position = 0; 
var buffer = new Buffer (length); 
return fs.readAsync(fd, buffer, 0, length, position) // 异 步 文件 读 取 
}) .spread (function (bytes, data) { // 文 件 读 取 成 功 处 理 的 数据 
console.log({ 
log: data.toString(), 
length: bytes 


H; 
}) .catch (function (error) { // 处 理 整个 过 程 中 遇 到 的 错误 
console.log({ 
error: error 
De 
}) 


24 ”事件 循环 


Nodejs 作 为 服务 器 端 程序 ， 需 要 处 理 大量 的 网 络 报 文 ， 为 了 实现 高 性 能 ， 使 用 javaScript 编 写 这 些 程序 就 必然 需要 编写 大 量 的 回调 函数 来 实现 非 阻塞 式 /O 操 作 。 而 Nodejjs 为 实现 对 大 量 非 阻塞 式 MO 
回调 函数 的 支持 引入 了 事件 循环 的 设计 。JavaScript 事 件 循环 代码 如 下 : 


while (queue.waitForMessage () ) { 
queue .processNextMessage () ; 


辐 2-5 是 事件 循环 示意 图 。 所 谓 事件 循环 ， 就 是 在 Nodejs 内 部 构建 了 一 个 环形 的 队列 ，Node;js 循 环 往复 遍历 环 中 的 每 一 个 元 素 ， 每 遇 到 一 个 元 素 ，Node;js 会 查看 这 个 元 素 等 待 的 事件 是 否 已 经 就 绪 ， 
如 果 已 经 就 绪 ， 那 就 执行 元 素 所 指向 的 代码 块 ， 在 整个 代码 块 执行 完成 之 前 ，Nodejs 不 会 走 到 下 一 个 元 素 并 执行 其 代码 ， 这 称 为 “执行 到 完成 ”。 由 于 已 知 Nodejs 是 单线 程 的 ， 所 以 可 以 确定 ， 在 这 

个 “执行 到 完成 ”的 过 程 中 ， 程 序 块 是 独占 处 理 器 的 ， 在 程序 块 没有 释放 处 理 器 之 前 ， 下 一 个 事件 不 会 得 到 响应 。 而 在 程序 块 遇 到 新 的 非 阻 塞 式 /O 操 作 等 异步 事件 时 ， 会 执行 非 阻塞 式 /O 并 将 其 回调 函数 
对 应 的 代码 块 加 到 事件 循环 队列 的 末尾， 等待 Nodejs 下 一 次 遍历 到 这 个 元 素 。 而 插入 元 素 按照 先后 顺序 排列 ， 保 证 了 回调 的 嵌 套 中 外 层 嵌 套 先 被 执行 而 内 层 嵌 套 后 被 执行 。 


请 求 事件 


触发 回调 函数 


有 了 事件 循环 的 概念 ， 我 们 来 看 看 事件 循环 操作 的 完整 例子 ， 事 件 循环 是 贯穿 整个 Nodejs 的 核心 编程 模型 与 思想 ， 不 能 很 好 地 理解 下 面 的 导 


T 


// 引入 events 模块 

var events = require('events'); 

// 创建 eventEmitter WR 

var eventEmitter = new events.EventEmitter(); 

// 创建 事件 处 理 程序 

var connectHandler = function connected() { 

console. log (' 连 接 成 功 。'); 

// 触发 data_received 事 件 

eventEmitter.emit ('data received’) ;} 

// 绑 定 connection 事件 处 理 程序 

eventEmitter.on('connection', connectHandler) ; 

// 使 用 匿名 函数 绑 定 data_received 事 件 

eventEmitter.on('data received', function(){ 
console.log (' 数 据 接收 成 功 。') ; }); 

// 触发 connection 事 件 


eventEmitter.emit ('connection') ;console. log ("程序 执行 完毕 。"); 


通过 以 上 程序 ， 我 们 可 以 形象 地 理解 什么 是 事件 循环 以 及 它 的 行为 模式 ， 那 么 接 下 来 我 们 要 问 ， 为 什么 Nodejs 要 使 用 事件 循环 ， 在 分 析 并 给 出 原因 前 ， 我 们 先 讲 一 个 故事 。 


@ 小 故事 小 知识 。 大 型 机 时 代 的 业务 调度 


在 计算 机 的 历史 上 ， 大 型 机 具有 重要 的 地 位 。 在 大 型 机 时 代 ， 计 算 机 资源 很 昂贵 ， 


事件 循环 
(单线 程 ) 


图 2-5 事件 循环 


窗 集 型 操作 
文件 系统 
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SR) 
Ez 


计算 处 理 


有 件 循环 代码 就 无 法 很 好 地 理解 Node.js 的 运行 机 制 。 代 码 如 


以 至 于 通常 计算 机 要 由 所 有 的 科研 机 构 公司 一 起 共享 ， 甚 至 于 有 可 能 一 个 国家 ， 就 一 台 计 算 机 。 大 家 一 起 共享 计算 机 


就 意味 着 需要 设计 一 个 管理 任务 的 方式 。 最 自然 的 方式 为 批 处 理 方式 。 所 有 的 用 户 ( 包 括 科 研 机 构 、 大 学 、 公 司 等 ) 把 要 计算 的 程序 写 好 ， 按 先后 次 序 排 好 队 ， 一 个 个 来 处 理 ， 处 理 完 前 一 个 ， 再 处 理 后 一 
个 。 这 样 的 任务 管理 方法 有 一 个 问题 ， 即 如 果 某 任务 占用 时 间 太 长 ， 后 面 的 任务 就 只 能 等 待 。 为 了 克服 这 样 的 问题 ， 任 务 管 理 又 引入 了 分 时 多 道 技术 。 分 时 多 道 程 序 将 处 理 器 的 运行 时 间 切 成 等 长 的 一 个 片 


段 ， 每 个 片段 分 配给 多 道 程序 中 的 一 个 ， 当 程序 的 当前 时 间 片 用 完 时 ， 换 另 一 个 程序 来 使 用 下 一 个 时 间 片 ， 从 时 间 角 度 来 看 ， 这 种 方式 对 科研 机 构 、 学 校 、 


公司 都 公平 。 多 道 程序 的 分 时 处 理 有 时 也 会 遇 到 


一 些 问题 ， 因 为 在 大 型 机 的 客户 中 ， 军 队 是 重要 的 客户 ,而且 军事 应 用 通常 具有 实效 性 需求 ， 任 务 一 来 需要 立即 使 用 大 型 机 做 计算 。 为 此 在 多 道 程序 时 间 片 调度 基础 上 又 引入 了 抢占 式 业务 调度 ， 而 那些 只 


能 在 时 间 片 结束 后 才能 进行 的 业务 调度 称 为 非 抢 占 式 调度 。 


批 处 理 、 分 时 多 道 程序 、 抢 占 式 调度 各 有 优点 与 缺点 。 批 处 理 具有 最 佳 的 吞吐 量 ， 整 个 机 器 的 运行 时 
执行 都 是 计划 好 的 ， 有 依赖 关系 的 程序 会 严格 按照 先后 顺序 执行 。 分 时 多 道 程序 的 优点 是 做 到 时 间 分 配 公平 ， 时 间 消 耗 较 少 的 任务 会 最 先 完成 ， 然 
有 任务 进来 、 有 任务 完成 。 其 缺点 是 有 依赖 关系 的 任务 必须 要 进行 同步 ， 需 要 在 程序 里 保证 任务 执行 的 先后 顺序 ， 以 保证 当 任 务 执行 时 ， 其 依赖 的 另 一 个 任务 的 结果 已 经 获得 。 
够 保证 高 优先 级 的 任务 响应 延迟 最 短 ， 而 缺点 是 牺牲 了 整个 系统 的 吞吐 量 ， 


间 会 被 安排 得 满 满 ， 中 间 不 会 有 任务 切换 的 时 间 浪 费 ， 而 且 任 务 间 也 不 会 有 同步 问题 ， 


因为 所 有 的 


因为 抢占 越 频 繁 ， 花 费 在 任务 切换 上 的 时 间 越 多 ， 系 统 的 效率 也 就 越 差 。 


后 通过 设计 灵活 的 调度 算法 进行 动态 执行 ， 可 以 做 到 不 断 


抢占 式 任务 调度 的 优点 是 能 


Nodejs 选 择 事件 循环 模式 作为 任务 调度 方式 ， 可 以 认为 其 是 改进 版 本 的 批 处 理 模式 ， 任 务 在 处 理 过 程 中 不 可 中 断 ， 也 就 是 前 面 说 的 执行 直至 完成 ， 但 是 事件 循环 模式 又 提供 了 一 种 自动 调度 的 机 制 ， 能 


够 根据 需要 实现 对 事件 进行 响应 ， 虽 然 响应 是 有 延 时 的 ， 需 要 等 到 当前 任务 结束 才能 进行 。 


Nodejs 作 为 服务 器 端 程序 ， 并 发 性 能 是 它 最 重要 的 指标 ， 只 有 并 发 的 链接 数 越 多 ， 服 务 器 端 才能 为 更 多 的 客户 端 提供 服务 ， 
化 了 Nodejs 的 并 发 VO 能 力 或 者 MO 的 吞吐 能 力 。 由 于 Nodejjs 在 事件 循环 上 从 不 阻塞 ， 当 事件 循环 队列 上 的 当前 元 素 MO 没 有 完成 ， 它 会 立即 执行 下 一 个 元 素 对 应 的 代码 块 ， 如 此 处 理 器 时 间 是 永远 被 点 


oat 


因为 每 个 客户 端 都 是 一 个 链接 。 而 事件 循环 和 非 阻塞 式 /O 的 组 合 实际 最 大 


的 ， 和 批 处理 一 样 ， 系 统 的 吞吐 量 达到 最 大 化 ， 由 于 网 络 程序 可 以 容忍 一 定 的 延 时 ， 事 件 循环 带 来 的 延 时 间 题 在 Nodejs 中 并 不 严重 。 在 并 发 量 达到 最 大 的 同时 ，Nodejs 程 序 还 完成 了 任务 之 间 的 解 耦 ， 所 


有 任务 都 通过 在 事件 循环 队列 上 的 位 置 来 确定 依赖 关系 ， 而 Nodejs 总 是 顺序 遍历 这 个 事件 循环 队列 ， 所 以 在 Javascript 里 无 须 任何 同步 机 制 ， 类 似 了 
了 。 正 是 由 于 这 一 点 ，JavaScript 的 学 习 门 槛 相对 较 低 ， 入 门 非常 容易 。 


G. 故事 小 知识 


网 络 处 理 器 设计 


F 自 旋 锁 ， 信 号 量 等 同步 机 制 在 JavaScript 里 就 不 需要 


中 央 处 理 器 (CPU) 是 计算 机 的 核心 ， 是 程序 运行 的 地 方 。 那 么 网 络 上 的 防火 墙 、 路 由 器 等 的 核心 是 什么 呢 ? 是 网 络 处 理 器 (Network Processing Unit, NPU) 。 网 络 处 理 器 的 设计 不 同 于 中 央 处 理 器 的 
设计 。 在 网 络 处 理 器 中 ， 最 重要 的 模块 不 是 算法 处 理 单 元 ， 而 是 一 个 超 高 速 的 硬件 事件 循环 模块 。 网 络 处 理 器 有 比 中 央 处 理 器 多 得 多 的 处 理 单 元 ， 通 常 是 64 核 的 。 基 于 硬件 事件 循环 模块 ， 网 络 处 理 器 高 速 
地 处 理事 件 循 环 内 的 事件 ， 事 件 相互 之 间 不 需要 同步 ， 避 和 免 了 因 同 步 而 引起 的 停顿 ， 达 到 了 网 络 报 文 吞吐 量 的 最 大 化 。 同 时 ， 在 设计 上 ， 处 理 器 只 对 某 个 事件 循环 上 的 事件 执行 固定 的 处 理 指令 或 者 处 理 周 
期 ， 如 果 网 络 报 文 的 处 理 没有 完成 ， 处 理 器 会 将 中 间 结 果 重 新 放 入 环形 队列 中 ， 等 待 下 一 个 任务 周期 到 来 再 处 理 ， 这 一 设计 将 网 络 处 理 器 响应 新 的 报 文 的 延 时 确定 了 下 来 。 


由 此 可 见 ，Nodejs 其 实 就 是 网 络 处 理 器 的 软件 版 本 。 未 来 Nodejs 如 果 支 持 多 处 理 器 ， 也 会 像 网 络 处 理 器 一 样 ， 将 处 理 器 组 织 在 以 事件 循环 为 核心 的 框架 里 。 


2.6 Nodejjs 开 发 环境 


最 方便 且 集 成 度 最 好 的 Node.js 开 发 软件 当 首 推 VisualStudio Code， 它 是 微软 公司 一 个 开源 、 跨 平台 的 程序 编写 集成 
Nodejs 程 序 的 开发 与 调试 提供 了 最 完整 的 原生 支持 。 而 且 


1, VisualStudio Code 提 供 了 跨 平台 支持 ， 包 括 Window、Linux、MacOS。 对 于 物 联网 工程 师 来 说 ， 支 持 跨 平台 (特别 是 Linux) 是 必需 的 。 Be 


发 环境 。 整 个 VisualStudio Code 是 构建 在 Node.js 基 础 上 的 应 用 程序 ， 所 以 它 为 


要 的 是 ，VisualStudio Code 还 支持 通过 网 络 进行 远程 调试 ， 对 于 物 联网 开发 者 来 说 ， 这 能 够 极 大 地 提高 程序 开发 的 速度 。 读 者 可 以 到 https://code.visualstudio.com 下 载 并 安装 VisualStudio Code。 


图 2-7 所 示 是 VisualStudio Code 的 界面 ，VisualStudio Code 的 所 有 命令 都 可 以 通过 快捷 键 来 操作 ， 调 试 界面 可 以 通过 快捷 键 Ctrl+ Shift+D 进 入 ， 进 入 界面 按 F5 键 就 可 以 进行 Node.js 程 序 的 调试 了 。 
户 可 以 像 图 中 展示 的 那样 在 程序 中 设置 断 点 ， 可 以 单 步 运行 程序 。 调 试 界面 的 左边 窗 格 显示 当前 上 下 文 的 变量 值 、 需 要 监控 的 变量 值 、 调 用 栈 等 对 调试 有 帮助 的 信息 。 右 上 窗 
格 显示 程序 的 终端 输出 。 


格 显示 被 调试 程序 ， 右 下 窗 
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图 2-7 VisualStudio Code 的 界面 


2.7 ”微服 务 架构 


在 传统 服务 器 端 程序 开发 中 ， 通 常会 将 服务 器 端的 所 有 功能 模块 (包括 静态 网 页 、 动 态 网 页 模板 引擎 、RESTful API|、 业 务 逻 辑 、 数 据 库 访问 等 一 系列 的 功能 模块 ) 都 放 在 一 个 服务 器 端 程序 当中 ， 这 一 
架构 称 为 单 体 程序 架构 。 这 样 的 程序 开发 风格 比较 常见 ， 是 因为 这 类 程序 易于 调试 ， 也 易于 部 署 ， 并 且 有 很 好 的 集成 开发 环境 和 其 他 工具 支持 。 但 是 这 种 单 体 程序 也 有 它 的 问题 与 不 足 。 首 先 ， 随 着 服务 器 
端 编程 变 得 越 来 越 复杂 ， 单 体 程序 会 变 得 越 来 越 腑 肿 和 不 可 维护 。 其 次 ， 从 高 可 用 性 、 可 扩展 性 与 灵活 性 来 看 ， 单 体 程序 也 无 法 适应 这 些 需求 。 对 于 单 休 程序， 如 果 发 和 故障， 那么 整个 程序 便 会 衣 溃 ， 而 
当 性 能 不 够 要 对 应 用 进行 扩展 时 ， 单 体 程序 只 能 将 自己 复制 多 份 并 造成 大 量 宛 余 资源 的 开销 。 为 了 克服 单 体 程序 的 这 些 问 题 ， 微 服务 架构 应 运 而 生 。 微 服务 架构 将 原来 的 单 体 应 用 拆 分 成 多 个 功能 独立 的 服 
务 模块 ， 每 个 模块 是 一 个 功能 单一 的 程序 ， 模 块 与 模块 之 间 使 用 标准 的 通信 协议 (如 RESTful API) 来 进行 通信 ， 相 互 之 间 做 到 隔离 ， 一 个 模块 的 崩溃 退出 不 会 影响 其 他 模块 的 工作 ， 极 大 提高 了 整个 系统 的 
可 用 性 ， 而 每 个 模块 又 可 以 根据 性 能 要 求 进行 单独 的 水 平 扩展 ， 最 有 效 地 利用 了 资源 [1]。 


图 2-8 所 示 是 一 个 典型 的 微服 务 架构 框图 ， 原 来 的 一 个 在 线 商店 和 
移动 APP 提 供 的 API 网 管 服务 。 


a 体 程序 被 按 功 能 划分 成 了 不 同 的 组 成 部 分 ， 包 括 账 号 服务 、 存 货 服务 、 运 输 服务 ， 以 及 对 应 的 数据 库 、 前 端的 Web 应 用 服务 、 已 经 为 
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图 2-8 ”微服 务 架构 框图 


Nodejs 的 单 进程 轻 量 级 特点 使 得 其 非常 适合 微服 务 架 构 ， 特 别 是 在 现代 服务 器 中 ， 多 处 理 器 多 核 已 经 非常 常见 ， 而 Node.js 的 轻 量 级、 无 同步 使 得 单个 Node.js 虚 拟 机 只 能 使 用 一 个 处 理 器 核心 ， 使 所 
有 程序 都 运行 在 一 个 虚拟 机 里 ， 难 免 给 服务 器 造成 浪费 。 而 微服 务 架 构 很 好 地 解决 了 这 个 问题 ， 它 通过 将 服务 拆 分 成 不 同 的 模块 ， 各 模块 之 间 松 厦 合 ， 充 分 发 挥 了 Node.js 完 全 基于 网 络 的 特点 ， 所 有 的 微服 
务 间 都 基于 网 络 协议 通信 ， 有 效 解决 了 Nodejs 只 能 使 用 单 处 理 器 的 问题 ， 将 不 同 的 功能 拆 分 成 不 同 的 微服 务 ， 使 用 不 同 的 处 理 器 最 大 化 了 整个 服务 的 并 行 性 。 而 对 物 联网 来 阅 ， 物 联网 上 的 每 一 个 节点 都 可 
以 看 成 微服 务 里 的 一 个 模块 ， 由 于 物 联网 节点 处 理 能 力 有 限 ， 每 个 微服 务 模块 在 物 联网 这 个 大 系统 里 都 只 承担 一 个 简单 的 服务 ， 节 点 与 节点 之 间 像 微服 务 一 样 ， 通 过 标准 的 网 络 协议 通信 。 通 过 微服 务 架构 
设计 ， 可 以 很 自然 地 将 海量 的 物 联网 节点 管理 起 来 ， 并 将 整个 物 联网 的 功能 以 服务 的 形式 分 散 到 每 一 个 节点 上 去 。 因 此 基于 Nodejjs 的 微服 务 架构 非常 适用 于 物 联网 节点 的 开发 。 


[1] 参考 http://blogitexus.com/books/Microsetvices_Designing_Deploying.pdf。 


28 “本章 小 结 


本 章 由 浅 入 深 地 介绍 了 Nodejs 的 基础 知识 及 其 组 成 模块 。 首 先 ， 我 们 从 最 基础 的 标准 库 开 始 介绍 。 应 用 JavaScript 实 例 来 学 习 了 模块 的 定义 与 使 用 方法 ， 使 用 Nodejs 的 net 标 准 库 构建 了 一 个 简单 的 
TCP 服 务 器 ， 并 通过 详细 分 析 标准 库 console 模 块 的 实现 ， 进 一 步 学 习 与 掌握 了 Nodejs JavaScript 的 编程 方式 与 思想 。 接 着 ,我 们 详细 介绍 了 Node.js 中 用 来 执行 JavaScript 的 V8 引擎 ， 以 及 其 中 的 编译 执行 
与 垃圾 回收 两 个 重要 机 制 。 然 后 ,我们 详细 学 习 了 JavaScript 的 非 阻塞 编 程 模式 以 及 Node.js 高 效 非 阻塞 实现 事件 循环 。 紧 接着 ,我 们 介绍 了 用 于 管理 软件 开发 包 的 NPM 以 及 VisualStudio Code 开 发 环境 。 
最 后 ,我 们 介绍 了 Nodejs 网 络 处 理 系 统 中 最 重要 的 设计 模式 一 一 微服 务 架 构 。 


$38 ”基于 JavaScript 物 联网 数据 收集 


如 第 1 章 所 说 ， 物 联网 的 核心 是 数据 的 流动 ， 只 有 消除 数据 孤岛 ， 使 整个 物 联网 的 数据 流动 起 来 才能 为 物 联网 创造 价值 。 而 整个 物 联网 数据 收集 的 前 端 环节 ， 显 然 是 首先 应 该 研究 的 领域 。 物 理 世界 是 充 
满 了 各 种 信息 与 变化 的 世界 ， 而 物 联 网 前 端 就 是 物理 世界 与 数据 世界 的 一 座 桥 ， 因 此 物 联 网 前 端 有 时 也 被 称 为 网 桥 或 网 关节 点 。 这 些 网 关 与 网 桥 通过 将 现实 世界 的 各 种 物理 量 转化 为 电信 号 ， 再 把 电信 号 转 
换 为 物 联网 所 需要 的 数字 信号 。 在 本 章 中 ， 我 们 就 来 深入 分 析 物 联网 前 端 节 点 的 开发 。 我 们 首先 了 解 一 下 嵌入 式 系统 的 基本 概念 ， 然 后 从 实时 性 需求 入 手 分 析 如 何在 基于 JavaScript 的 嵌入 式 物 联网 网 关 开 
发 中 ， 满 足 实时 性 、 长 寿命 、 资 源 受 限 等 需求 与 限制 ， 这 其 中 包括 基于 Nodejs、loTjs 与 Espruino 的 开发 。 


3.1 嵌入 式 系 统 特点 


在 实际 的 物 联网 节点 开发 中 ， 通 常 所 使 用 的 系统 称 为 嵌入 式 系统 。 谋 入 式 系统 是 一 种 “完全 嵌入 受 控 器 件 内 部 ， 为 特定 应 用 而 设计 的 专用 的 具有 专属 功能 的 计算 机 系统 ”。 赃 入 式 系统 区 别 于 普通 计算 
机 系统 ， 其 核心 有 两 点 : 一 个 是 嵌入 ， 另 一 个 是 专用 。 基 于 这 两 点 ， 谋 入 式 系统 有 别 于 普通 计算 机 系统 的 特点 ， 表 现在 以 下 几 方面 。 


3.1.1 BRKE 


谋 入 式 系统 由 于 要 嵌入 受 控 器 件 内 部 ， 所 以 需要 有 很 高 的 集成 度 。 赃 入 式 系 统 要 在 单个 芯片 内 集成 组 成 计算 机 系统 所 必需 的 所 有 元 件 。 图 3-1 所 示 是 ARM9 处 理 器 的 系统 框 
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图 3-1 ARM9 处 理 器 的 系统 框图 


其 中 除了 核心 的 ARM926 内 核 之 外 ， 系 统 还 集成 了 链接 、 用 户 界面 、 控 制 、 内 存 、 系 统 五 大 集成 模块 。 每 个 模块 还 分 成 了 不 同 功能 的 子 模块 ， 包 括 百 兆 以 太 网 、USB 控 制 器 、SD 卡 控制 、 串 口 、 视 屏 解 
码 、 图 像 加 速 、LCD 控 制 器 、 摄 像 头 控制 器 、AC97 声 卡 、 触 控 屏 幕 、 模 拟 数字 转换 器 、 定 时 器 、 片 上 缓存 、 内 存 与 闪存 控制 等 。 随 着 集成 电路 的 发 展 ， 单 片 机 的 集成 度 越 来 越 高 ， 只 要 集成 电路 技术 允许 ， 
单片机 正在 集成 所 有 可 以 集成 的 东西 。 有 些 谋 入 式 系统 还 会 将 多 个 芯片 堆 赤 起 来 以 提高 集成 度 ， 减 少 空间 。 作 为 谋 入 式 处 理 器 的 手机 处 理 器 就 将 这 一 点 发 挥 到 了 极致 ， 在 一 个 芯片 里 集成 了 处 理 器 、 存 储 器 


等 元 件 [1] 


因为 说 入 式 系统 要 嵌入 受 控 部 件 内 部 ， 所 以 其 各 个 方面 都 会 受到 被 控 部 件 的 限制 。 对 于 嵌入 式 系统 来 说 ， 通 常 其 功率 不 会 太 大 ， 一 般 采 用 无 风 房 设计， 所 以 系统 的 散热 会 是 一 个 很 大 的 问题 ， 甚 至 连 安 
放 散 热 器 的 空间 都 没有 。 没 有 散热 系统 ， 处 理 器 的 功率 就 受到 自身 散热 能 力 的 限制 ， 必 须 在 自然 散热 条 件 下 保证 处 理 器 的 工作 温度 不 会 超过 其 温度 极限 。 如 果 衬 入 式 系统 由 电池 供电 ， 那 么 嵌入 式 系统 的 功 
率 会 进一步 受到 电池 功率 密度 及 体积 的 限制 ， 谋 入 式 系统 的 体积 限制 使 得 可 以 加 入 的 电池 大 小 受到 限制 而 又 由 于 电池 的 能 量 密度 受到 安全 性 的 限制 ， 过 高 的 能 量 密度 会 导致 电池 有 爆炸 的 风险 ， 最 广 为 人 
知 的 例子 就 是 三 星 公 司 的 Galaxy 8。 而 电池 供电 系统 ， 为 了 有 更 好 的 用 户 体验 ， 总 是 希望 在 一 次 充电 后 能 够 有 更 长 的 工作 时 间 ， 赃 入 式 系统 还 会 在 功率 限制 的 基础 上 进一步 做 功率 的 优化 ， 保 证 系统 以 最 少 
的 功率 消耗 完成 所 有 的 任务 。 这 样 嵌入 式 系统 会 长 时 间 只 运行 在 省 电 模式 下 ， 而 仅 有 很 少时 间 会 全 功率 工作 。 除 了 功率 限制 ， 谋 入 式 系统 的 另 一 个 限制 是 成 本 ， 典 型 地 体现 在 嵌入 式 处 理 器 的 内 存 限制 ， 通 
常 内 存 几 十 生字 节 到 几 百 兆 不 等 。 让 入 式 系统 特别 是 单片机 需要 把 各 种 模块 (GAT) 集成 在 一 起 ， 而 要 把 很 大 的 内 存 集成 到 芯片 上 会 导致 成 本 极 大 地 上 升 ， 所 以 嵌入 式 系统 会 在 内 存 的 使 用 上 做 非常 多 
的 优化 ， 比 如 会 在 闪存 上 直接 执行 程序 而 不 是 像 个 人 计算 机 那样 将 其 复制 到 内 存 中 运行 。 


谋 入 式 系统 通 常 具 有 超 长 的 寿命 。 这 里 的 长 寿命 体现 在 两 个 方面 。 


第 一 个 长 寿命 是 指 嵌 入 式 处 理 器 的 工作 时 间 非 常 长 。 对 于 嵌入 式 系统 来 说 ，7x24 小 时 ，365 天 全 年 连续 工作 是 非常 正常 的 事情 。 通 常 个 人 计算 机 不 会 有 这 样 的 需求 ， 而 即使 像 服务 器 这 样 需要 7x24 小 时 
工作 的 机 器 ， 其 要 求 也 不 及 嵌入 式 系统 。 由 于 嵌入 式 系统 要 嵌入 被 控 系 统 内 部 ， 所 以 最 基本 的 要 求 就 是 免 维 修 ， 因 为 维修 成 本 实在 太 高 ， 甚 至 不 可 能 。 典 型 的 例子 就 是 宇航 飞船 或 卫星 ， 当 卫星 或 飞船 被 发 
送 到 太空 开始 运行 后 ， 如 果 其 出 现 故 障 几 乎 不 可 能 进行 维修 ， 因 为 再 发 射 一 个 飞船 去 维修 它 的 成 本 比重 新 发 射 一 个 还 要 高 。 诸 如 像 旅行 者 号 那样 的 飞 往外 太空 的 星际 飞船 ， 更 是 完全 没有 维修 的 可 能 ， 它 永 
远离 地 球 而 去 了 。 


谋 入 式 系统 的 第 二 个 长 寿命 是 指 它 的 生产 销售 支持 的 整个 产品 生命 周期 很 长 。 与 个 人 计算 机 、 服 务 器 芯片 每 18 个 月 性 能 提高 一 倍 ， 三 年 就 基本 淘汰 不 同 ， 一 般 一 款 谋 入 式 处 理 器 推出 后 ， 有 超过 10 年 以 
上 的 产品 生命 周期 ， 这 样 谋 入 式 系统 的 设计 者 就 不 用 担心 因为 芯片 停产 而 不 断 重 新 更 改 自己 的 设计 。 当 然 ， 这 也 意味 着 府 入 式 处 理 器 的 更 新 换代 速度 远 没有 个 人 计算 机 和 服务 器 那么 频繁 ， 让 入 式 处 理 器 发 
展 简 史 中 的 8051 就 是 一 个 很 好 的 例子 ， 它 历经 30 多 年 仍然 经 久 不 误 。 


3.1.4 ”环境 苛刻 


谋 入 式 系统 通 常会 工作 在 非常 特殊 的 环境 里 。 这 些 特殊 的 环境 中 ， 最 常见 的 就 是 日 晒 雨 淋 的 室外 环境 ， 有 些 是 有 极 高 或 极 低温 度 的 环境 ， 有 些 是 有 极 高 湿度 的 环境 ， 有 些 是 有 极 高 压力 的 环境 ， 有 些 是 
极 真 空 的 环境 ， 有 些 是 强酸 、 强 碱 的 环境 ， 还 有 一 些 是 有 极 强 辐射 的 环境 ， 更 有 甚 者 是 以 上 几 个 环境 的 到 加。 最 极端 情况 的 例子 就 是 工作 在 核电 站 的 工业 抢险 机 器 人 上 的 嵌入 式 系统 ， 其 不 仅 要 耐 受 核电 站 
内 高 温 、 高 湿 、 高 压 环境 ， 而 且 要 能 抵抗 强烈 到 能 够 瞬间 杀 死 人 类 的 辐射 。 这 些 多 变 的 环境 要 求 说 入 式 处 理 器 所 承担 的 任务 是 多 样 性 的 ， 由 于 这 种 多 样 性 ， 谋 入 式 处 理 器 的 同一 个 产品 会 有 多 种 不 同 的 级 
别 ， 如 民用 、 工 业 用 及 军用 。 不 同 级 别 会 有 不 同 的 环境 适应 范围 。 更 进一步 ， 有 些 芯 片 还 会 提供 一 些 为 特别 环境 定制 的 版 本 ， 如 宇航 级 抗 辐射 版 本 。 有 些 谋 入 式 系统 在 芯片 的 基础 上 又 加 入 了 加 固 措施 ， 以 
进一步 提高 系统 对 苛刻 环境 的 耐 受 程度 。 


全 路 故事 小 知识 嵌入 式 处 理 器 发 展 简 史 


KARLAR 〈 有 时 称 为 单片机 ) 的 发 展 史 和 计算 机 处 理 器 的 发 展 史 有 很 大 的 不 同 ， 但 又 可 以 找到 相似 的 脉络 。 在 单片机 的 发 展 历 史上 ， 不 得 不 讲 的 是 Intel 的 8051 处 理 器 ， 它 曾经 统治 了 单片机 市 场 长 
达 20 年 之 久 ， 可 以 说 8051 处 理 器 是 电子 元 器 件 领域 中 当之无愧 的 常 青 树 。 与 计算 机 处 理 器 发 展 不 同 ，8051 长 久 以 来 在 嵌入 式微 控制 器 领域 长 期 停留 在 8 位 时 代 。 而 对 于 物理 世界 来 说 ，8 位 数据 在 精度 上 已 经 
能 够 满足 多 数 需求 。Intel 公 司 曾经 尝试 着 设计 了 8051 的 16 位 和 32 位 替代 升级 产品 ， 但 都 没有 撼动 8051 的 地 位 ， 最 终 以 失败 告终 ， 以 至 于 后 来 Intel 公 司 自 己 也 放弃 了 整个 微 控 制 器 的 生产 。 当 计算 机 处 理 器 从 8 
位 走 过 16 位 来 到 32 位 ， 甚 至 于 越 进 到 64 位 后 很 多 年 ， 微 控制 器 领域 才 迎 来 了 升级 。 完 成 这 次 微 控制 器 更 新 换代 的 是 ARM 处 理 器 ， 而 推动 这 次 进步 的 是 移动 互联 网 的 兴起 。20 世 纪 90 年 代 末 ， 随 着 手机 的 流 
行 ， 人 们 开始 有 了 手机 上 网 的 需求 ， 当 时 的 手机 处 理 器 性 能 并 不 像 现在 这 样 能 够 和 计算 机 一 较 高 下 ， 手 机 处 理 器 仍然 属于 资源 受 限 的 谱 入 式 处 理 器 。 而 JP 地址 以 及 IP 网 络 都 是 按照 32 位 处 理 器 设计 的 ， 如 果 
在 手机 上 继续 使 用 8 位 或 者 16 位 处 理 器 显然 无 法 很 好 地 满足 IP 网 络 接 入 的 需求 。 随 着 手机 从 功能 机 时 代 发 展 到 智能 机 时 代 ， 当 时 的 “手机 王者 ”诺基亚 在 其 具有 里 程 碑 意义 的 诺基亚 7650 中 采用 了 ARM 处 理 
器 ， 至 此 嵌入 式 系统 由 8 位 处 理 器 为 主导 的 时 代 正式 进入 32 位 处 理 器 为 主导 的 时 代 。 而 随 着 苹果 公司 同样 使 用 ARM 处 理 器 的 iPhone 的 推出 ， 完 全 英 定 了 ARM 处 理 器 在 移动 互联 网 的 支配 地 位 。 同 时 这 种 支配 也 
延续 到 了 当今 的 物 联网 中 。 


从 这 一 发 展 历史 可 以 看 出 ， 了 驱动 技术 发 展 的 通常 并 不 是 技术 的 难 易 程 度 ， 而 通常 是 技术 的 经 济 属 性 。 如 何以 最 经 济 有 效 的 方式 满足 用 户 需 求 远 比 技术 实现 的 难 易 重 要 得 多 ， 而 庶 入 式 处 理 器 及 庶 入 式 系 
统 的 发 展 正 实践 了 这 一 思想 ， 庶 入 式 系 统 需 要 在 资源 受 限 的 条 件 下 完成 任务 。 


[由 拓展 阅读 https://wapbaike.baidu.com/item/ 手 机 处 理 器 。 


3.3 Nodejs 物 联网 节点 开发 


在 第 2 章 中 ， 我 们 深入 学 习 了 Node.js 的 核心 基础 ， 在 本 章 中 ， 我 们 现 学 现 用 ,使 用 Node.js 来 开发 物 联网 的 网 关节 点 。 使 用 Node.js 来 开发 物 联网 有 非常 多 的 好 处 ， 我 们 知道 ，JavaScript 里 的 回调 模式 
非常 适合 |/O 密 集 型 的 高 集成 度 嵌 入 式 系统 ， 利 用 Node.js 的 高 性 能 V8 引擎 及 高 性 能 事件 循环 ， 可 以 将 JavaScript 的 这 种 优势 发 挥 到 极致 。 同 时 由 于 JavaScript 的 单线 程 特点 ，Node.js 所 消耗 的 内 存 较 少 ,使 
得 即使 是 资源 受 限 的 嵌入 式 系统 部 署 Nodejs 也 不 会 有 太 大 的 压力 。 


应 用 Node.js 来 开发 物 联网 网 关 ， 首 先 需 要 解决 的 就 是 物 联网 网 关 数 据 实时 采集 的 需求 ， 也 就 是 如 何在 Node.js 上 实现 不 同 级 别 的 任务 实时 性 ， 在 优化 Node.js 任 务实 时 性 的 同时 ， 利 用 同样 的 技术 同样 
可 以 优化 非 实时 任务 ， 提 高 Nodejs 在 资源 受 限 的 嵌入 式 系统 中 的 执行 性 能 。 让 我 们 首先 来 看 看 实时 内 存 分 配 与 优化 的 问题 。 


3.3.1 ”内 存 分 配 与 优化 


系统 的 内 存 分 配 分 为 静态 内 存 分 配 与 动态 内 存 分 配 。 全 局 变量 、 静 态 常量 等 在 系统 已 启动 时 就 已 经 分 配 完成 的 就 是 静态 内 存 分 配 ， 而 栈 上 内 存 分 配 与 堆 上 内 存 分 配 则 属于 动态 内 存 分 配 。 静 态 内 存 分 配 
的 突出 优势 就 是 内 存 的 分 配 在 系统 初始 化 时 完成 ， 其 后 不 需要 花费 任何 处 理 器 的 指令 周期 ， 但 其 缺点 有 两 方面 。 


一 是 ， 由 于 变量 是 在 系统 启动 时 提前 分 配 的 ， 其 无 法 按照 系统 的 需要 动态 分 配 ， 缺 少 了 使 用 上 的 灵活 性 。 


二 是 ， 大 量 使 用 全 局 变量 不 是 一 个 好 的 编程 模式 ， 会 给 代码 的 可 读 性 与 可 维护 性 带 来 负面 影响 。 


动态 内 存 分 配 又 可 以 分 为 栈 上 内 存 分 配 与 堆 上 内 存 分 配 。 由 于 处 理 器 都 有 记录 栈 所 在 位 置 的 寄存 器 ， 所 以 栈 上 内 存 分 配 仪 需要 消耗 一 条 处 理 器 指令 便 能 完成 ， 开 销 非常 小 ， 其 缺点 是 内 存 的 分 配 是 内 套 
的 ， 先 分 配 的 内 存 必须 要 在 后 分 配 的 内 存 回收 后 才能 回收 ， 因 此 其 不 适合 分 配 长 生命 周期 的 变量 ， 而 只 适用 于 局 部 变量 。 相 比 于 栈 上 内 存 分 配 的 局 限 性 ， 堆 上 内 存 分 配 则 是 通用 的 内 存 分 配 区 域 ， 通 常 管理 
着 系统 中 绝 大 多 数 内 存 空间 的 分 配 。 最 为 常见 的 堆 上 内 存 分 配 算法 是 空闲 链表 算法 。 图 3-6 所 示 为 一 个 空闲 链表 。 


T WAFER 


list 


图 3-6 ”空闲 链表 


系统 为 了 管理 整个 堆 空间 ， 将 整个 堆 空间 分 成 若干 块 ， 这 些 块 就 称 为 空闲 内 存 块 。 为 了 能 够 记录 下 这 些 空闲 内 存 块 用 于 系统 内 存 分 配 ， 系 统 首先 在 空闲 块 的 头 部 创建 一 个 包括 指针 与 空闲 块 大 小 的 元 数 


据 ， 然 后 利用 这 些 指针 创建 一 个 链表 ， 将 这 些 空闲 内 存 组 成 一 个 链表 形式 ， 这 就 是 空闲 链表 。 当 系统 使 用 空闲 链表 算法 分 配 一 段 内 存 时 ， 会 首先 遍历 这 个 链表 找到 大 小 最 合 


分 配 出 来 。 如 果 空 闲 块 满足 了 分 配 的 需要 还 有 剩余 ， 那 么 将 剩余 部 分 重新 创建 一 个 新 的 空闲 内 存 块 播 回 到 链表 中 。 一 般 


适 的 空闲 内 存 块 ， 将 需要 的 内 存 


系统 刚 启动 时 ， 空 闲 链表 只 有 一 个 元 素 ， 空 闲 内 存 块 包括 整个 堆 空间 ， 随 着 系统 的 运 
行 ， 不 断 有 内 存 分 配 与 内 存 回收 ， 链 表 上 的 空闲 空间 块 会 越 来 越 多 ， 这 就 是 内 存 碎片 。 系 统 会 在 每 次 分 配 内 存 时 尝试 进行 空间 的 合并 ， 以 减少 内 存 碎 片 的 出 现 。 由 此 可 以 看 出 ， 
法 不 适合 用 在 实时 程序 中 ， 因 为 其 时 间 复 杂 度 不 是 固定 的 。 随 着 内 存 碎片 的 增加 ， 算 法 需要 花费 大 量 时 间 来 寻找 适合 分 配 的 空闲 内 存 块 ， 这 会 导致 实时 任务 的 抖动 变 得 非常 大 ， 而 对 于 强 实时 任务 来 党， 其 


空闲 链表 内 存 分 配 算 


能 容忍 的 抖动 非常 小 ， 抖 动 过 大 会 直接 导致 任务 超时 。 


了 解 了 一 般 系 统 内 存 分 配 及 它们 在 实时 系统 中 的 优 缺 点 ， 那 么 我 们 接着 来 研究 在 Nodejjs 环 境 下 怎么 来 解决 实时 任务 内 存 分 配 问 题 。Nodejs 采 用 垃圾 回收 技术 来 管理 堆 上 的 内 存 ， 而 垃圾 回收 会 导致 系 


统 停顿 ， 同 样 会 造成 实时 任务 的 抖动 增加 ， 下 面 我 们 会 详细 讨论 提升 Nodejs 实 时 性 以 避免 与 减少 垃圾 回收 的 具体 技术 ， 这 些 技术 分 别 是 堆 外 内 存 、 对 象 池 及 栈 上 分 配 。 


1. 堆 外 内 存 


我 们 知道 ，V8 引 警 使 用 垃圾 回收 技术 来 管理 JavaScript 的 堆 空间 ， 扒 外 内 存 ， 可 以 简单 地 理解 为 不 受 V8 引 擎 垃圾 回收 管理 的 内 存 ， 当 然 这 类 内 存 包 括 很 多 种 。Nodejs 提 供 了 堆 外 内 存 分 配 的 功能 ， 实 


现 这 一 功能 的 就 是 Nodejs 核 心 模块 buffer。 接 下 来 我 们 来 研究 一 下 Nodejs 是 怎么 实现 堆 外 内 存 分 配 ， 并 同时 上 


动 的 ， 研 究 标准 库 源 代码 始终 是 学 习 和 提高 编程 能 力 的 最 佳 途 


JavaScript 实 现 了 内 存 分 配 的 进一步 优化 以 尽量 避免 空闲 链表 算法 带 来 的 实时 任务 时 延 、 拌 


径 。buffer 的 源 代码 比较 长 ， 这 里 只 列 出 和 内 存 分 配 相关 的 片段 。 源 码 片段 如 下 [1]: 


// 绑 定 一 个 C/C++ 的 模块 ， 用 于 添加 buffer 的 方法 


var buffer = process.binding('buffer'); 


// 绑 定 一 个 C/C++ 的 模块 ， 用 于 申请 内 存 ，smal1loc 最 终 会 调用 标准 的 malloc， 即 使 用 空闲 链表 算法 来 分 // 配 内 存 ， 这 部 分 内 存 是 分 配 在 堆 外 内 存 空间 的 


Var smalloc = process.binding('smalloc'); 


// 帮助 类 
var util = require('util'); 
// 申请 内 存 的 方法 ， 可 以 简单 地 理解 为 C/C++ 的 new malloc 


var alloc = smalloc.alloc; 
var truncate = smalloc.truncate; 
var sliceOnto = smalloc.sliceOnto; 
// 可 以 分 配 的 最 长 的 puffer， 值 为 0x3fffffff， 也 就 是 1GB 的 大 小 
Var kMaxLength = smalloc.kMaxLength; 
var internal = {}; 
// 导出 模块 的 类 buffer 
exports.Buffer = Buffer; 
// 导出 模块 的 类 SlowBuffer 
exports.SlowBuffer = SlowBuffer; 
exports. INSPECT MAX BYTES = 50; 
// _ Buffer 缓存 的 天 小 为 8BKB 
Buffer.poolSize = 8 * 1024; 
var poolSize, poolOffset, allocPool; 
// dR HE SKBM Dc BEE 
function createPool() { 
// 当前 缓存 的 大 小 
poolSize = Buffer.poolSize; 
7 缓存 的 内 存 地 址 
allocPool = alloc({}, poolSize); 
// n E EN 
poolOffset = 
}// 7 本 以 理解 为 条 及 应 芭 的 时 候 就 创建 了 一 个 8KB 大 小 的 puffez 缓 存 


createPool (); 


从 上 面 这 段 源码 可 以 看 到 ， 首 先 Node.js 将 smalloc 绑 定 到 buffer 模 块 中 ， 通 过 使 
收 操作 而 垃圾 回收 机 制 也 不 会 管理 与 移动 由 alloc 方 法 分 配 的 内 存 ， 因 此 buffer 模 块 通常 用 来 给 


smalloc 


方式 也 等 同 于 使 用 全 局 变量 来 做 静态 内 存 分 配 。 下 面 我 们 看 一 下 buffer 的 构造 函数 ， 看 一 下 内 存 


的 alloc 方 法 来 为 buffer 模 块 分 配 内 存 ， 由 于 分 配 的 内 存在 V8 引 丈 堆 外 ， 因 此 这 些 内 存 的 分 配 不 会 触发 垃圾 回 
网 络 /O 分 配 大 块 的 缓冲 区 ， 实 时 任务 的 内 存 分 配 应 该 尽量 使 用 这 种 堆 外 内 存 ， 以 减少 不 必要 的 垃圾 回收 。 在 
此 基础 上 ，Nodejs 还 实现 了 一 个 8KB 大 小 的 buffer 的 缓存 池 ， 利 用 这 个 缓存 池 新 建 一 个 buffer 的 时 候 Nodejs 就 不 需要 使 用 空闲 链表 算法 来 重新 申请 内 存 ， 这 样 可 以 进一步 提高 程序 的 实时 性 与 效率 ， 这 一 
体 是 怎么 分 配 的 : 


// Buffer 的 创建 最 多 有 两 个 参数 ，subject (不 同类 型 ， 主 要 说 明 Buffer 的 大 小 与 初始 值 ) 
// 和 encoding (Buffer 的 编码 格式 ) 
function Buffer (subject, encoding) 

// 检查 ， 如 果 不 是 Buffer 类 型 ， gna, 生成 新 Buffer 对 象 

if (!util.isBuffer(this)) return new Buffer(subject, encoding) ; 

// 如 果 subject 参 数 为 数字 ， 表 示 Buffer 长 度 

if (util.isNumber(subject)) { 

this.length = +subject; 


T 
// subject 参 数 为 字符 串 的 情况 
else if (util.isString (subject) ) 
// 处 理 第 二 个 参数 ， NL L "utf8' 编 码 格式 


if (!util.isString(encoding) || encoding.length === 0) encoding = 'utf8'; 
// 获取 当前 Buffer 的 长 度 this.length = Buffer.byteLength(subject, encoding) ; 
// Handle Arrays, Buffers, Uint8Arrays or JSON. 

} else if (util.isObject(subject)) { 
// Ee JSON 格 式 的 情况 


=== 'Buffer' && util.isArray(subject.data)) subject = subject.data; 


if (subject.typ 
ENA But Teri KIE 
this.length = +subject.length; 
} else { 
// 如 果 不 是 数字 、 字 符 串 、 队 列 、Buffer 等 情况 ， 直 接 抛 出 异常 
// 这 说 明 Buffer 的 构造 只 接受 subject 参 数 为 几 种 情况 


throw new TypeError('must start with number, buffer, array or string'); 


} 
// 检查 ， 如 果 申 请 的 大 小 大 于 1GB， 直 接 抛 出 异常 
if (this.length > kMaxLength) { 


throw new RangeError('Attempt to allocate Buffer larger than maximum ' + 'size: 


T 

// 如 果 为 负数 ， 直 接 清 零 

if (this.length < 0) this.length = 0; 

else this.length >>>= 0; 

// Coerce to uint32. 

this.parent = undefined; 

// 这 里 需要 特别 注意 ， 如 果 Buffer 申 请 的 大 小 为 4KB (Buffer.poolSize >>> 1) 

if (this.length <= (Buffer.poolSize >>> 1) && this.length > 0) { 
// 如 果 需 T ae CARRET, 直接 重新 申请 
if (this.length > poolSize - poolOffset) createPool (); 


this.parent = sliceOnto(allocPool, this, poolOffset, poolOffset + this.length); 


// ee WIATA BN Buter 
poolOffset += this.length; // Ensure aligned slices 
// 处 理 字 节 对 齐 
if (poolOffset & 0x7) { 
poolOffset |= 0x7; poolOffsett++; 


} else 
// 也 就 是 说 ， 大 于 4KB 的 情况 下 ， 会 直接 重新 分 配 内 存 
alloc (this, this.length); 


F 
// 下 面 处 理 的 是 已 经 申请 的 Buffer 内 存 初始 化 问题 
// stepl: ”如 果 是 数字 ， 无 须 初始 化 ， e 
if (util.isNumber(subject)) { return; 
// step2: ”如 果 是 字符 串 ， Star eer 
if (util.isString (subject)) 
// 直接 将 EHH A A Buffer, 进行 初始 化 
// Beers 是 ， 在 base64 编 码 的 情况 下 ， 可 能 内 存 不 一 样 
var len = this.write (subject, encoding); 
// “将 多 出 的 内 存 还 加 去 
if (len !== this.length) { 
var prevLen = this. length; 
// 处 理 内 存 不 一 样 的 情况 
this.length = len; 
// 重 新 截取 内 存 truncate (this, this.length); 
if (this.parent != undefined) poolOffset -= (prevLen - len); 
// EMR 


0x' + kMaxLength.toString(16) + ' bytes') 


} else if (util.isBuffer (subject) 
// 处 理 Buffer 的 情况 ， 
subject.copy(this, 0, 0, this.length Mi 


} else if (util.isNumber (subject. length) 


for (var i = 0; i < this.length; i++) this[i] = 


将 参数 中 Trei RRs 新 的 Buffer 中 


util.isArray(subject)) { 
// 处 理 队列 的 情况 ， 直 接 将 队列 NASRI RRR T 
subject [i]; 


从 Buffer 的 构造 函数 可 以 看 出 ， 对 于 大 于 4KB 的 内 存 分 配 会 使 用 空闲 链表 算法 直接 


请 新 的 内 存 ， 


空闲 链表 算法 分 配 新 的 内 存 供 Buffer 使 用 。 


当 8KB 的 缓冲 区 用 完 后 ， 也 会 使 


在 使 有 


Bue RTD S 


应 尽量 避免 在 有 实时 性 要 求 的 程序 中 使 


Buffer 字 符 串 ， 


研究 完了 堆 外 内 存 技术 的 Nodejs 实 现 标准 模块 Buffer 的 设计 ， 我 们 来 继续 讨论 如 何 完全 通过 Javascript 程 序 设计 来 避免 与 减少 垃圾 回收 过 程 的 技术 ， 包 括 对 象 池 与 栈 上 分 配 。 


2. 对 象 池 


需要 提前 初始 化 内 存 ， 而 这 同 术 


会 造成 实时 任务 的 拌 动 加 大 。 


对 象 池 (object pool) 是 一 种 设计 模式 [。 一 个 对 象 池 包 


一 组 已 经 初始 化 过 


可 以 使 


的 对 象 ， 并 可 以 在 有 需求 时 创建 和 销毁 对 象 。 池 的 


时 归还 给 池子 而 非 直接 销毁 它 。 这 
触发 垃圾 回收 以 回收 不 再 使 


可 能 需 


对 象 ， 这 些 对 象 在 初始 化 过 程 中 涉及 网 络 连接 的 建立 与 握手 , 


以 下 是 一 个 简单 的 JavaScript 对 象 池 实现 : 


// 对 象 池 构 造 函 数 ，iLimit 指 定 了 池 中 能 够 容纳 多 少 对 象 ， 
function ObjectPool(iLimit, fnConstructor) { 
// 分 配 数组 内 存 ， 用 于 存储 对 象 
this. aObjects = new Array(iLimit) : 
T ETEA Gb PHN 部 变量 
this. fnConstructor = fnConstructor; 
this. iLimit = iLimit; 
this. iSize = 0; 
// 获 得 一 个 对 象 


this. obtain = function() { 


var oT 
er 那么 将 其 从 存储 数组 里 取出 来 
if (this. iSize > 0) 
this. iSize--; 
oTemp = this. aQbjects[this. 
this. _aObjects[this. iSize] 
return oTemp; 
T 
// 如 果 没 有 现成 的 对 象 ， 就 创建 一 个 
return fnConstructor () 7 
F 
// 回 收 一 个 对 象 
this.recycle = function(oRecyclable) { 


// 检 查 对 象 类 型 ， 不 回收 类 型 不 对 的 对 象 
if (!oRecyclable instanceof this. 


_iSize]; 
= null; 


fnConstructor) { 


这 是 一 种 特殊 的 工厂 对 象 。 对 于 实时 任务 来 说 ， 初 始 化 与 实例 化 一 个 对 象 的 代价 都 高 晶 ， 必 须要 进行 
的 内 存 ， 这 些 必 然 都 要 产生 时 延 、 拌 动 。 那 么 如 果 对 象 需要 经 
取得 与 放 回 一 个 对 象 的 时 间 是 可 预测 的 ， 和 全 局 变量 一 样 ， 如 果 在 系统 初始 化 阶段 就 完成 对 象 池 创 建 ， 就 可 以 获得 和 全 局 变量 一 样 的 静态 分 配 的 实时 性 优势 。 最 常见 的 使 
通常 代价 极 大 ， 那 么 把 这 些 连 接 对 象 缓存 在 对 象 池 中 进行 复 


fnConstructor 是 对 象 的 构造 函数 


throw new Error("Trying to recycle the wrong object for pool."); 


} 

// 如 果 对 象 池 中 还 

if (this. iSize < this. 
this. _aobj ects [this。 
this._iSize++; 


else { 
// 如 果 对 象 池 满 了 就 什么 也 不 做 ， 等 待 垃圾 回收 器 来 清理 对 象 
T 
i 
// 获 得 对 象 池 大 小 
this.getSize = function() { 
return this. iSize; 


能 放 入 新 对 象 ， 则 将 对 象 放 入 其 中 以 备 以 后 使 用 
_ibimit) { 
_iSize] = oRecyclable; 


li 


对 象 池 可 以 获得 


常 实例 化 ， 但 在 每 次 实例 化 的 最 大 数量 确定 的 情况 下 ,使 


会 极 大 地 提升 程序 的 性 能 。 


Buffer 的 过 程 中 ， 


户 可 以 从 池子 中 取得 对 象 ， 对 其 进行 操作 处 理 ， 并 在 不 需 
基于 空闲 链表 的 内 存 分 配 操作 ， 而 销毁 一 个 对 象 的 代价 同样 高 昂 ， 

显著 的 效能 提升 。 从 池子 中 
对 象 池 的 地 方 就 是 各 种 网 络 连 接 


以 下 是 使 


这 个 对 象 池 的 一 个 例子 : 


// 一 个 对 象 的 构造 函数 
function Point() { 
this.x = 0 
this.y = 0 


} 

// 创 建 对 象 池 

Var oPointPool = new ObjectPool (10, Point); 
// 获 得 对 象 

var oPointl = oPointPool.obtain(); 

var oPoint2 = oPointPool.obtain(); 

// 用 户 处 理 逻 辑 

// 返 还 对 象 

oPointPool.recycle (OPoint1) ; 

oPointPool. recycle (oPoint2) ; 


如 果 只 是 简单 地 提供 实时 任务 使 用 的 对 象 池 实现 ， 上 面 的 代码 已 经 够 


了 ， 但 是 如 果 想 应 


工程 目录 下 执行 如 下 命令 : 


对 象 池 到 网 络 TCP 连 接 池 等 较为 复杂 的 资源 上 ， 


建议 读者 使 用 现成 的 对 象 池 库 node-pool， 只 需要 在 自己 的 


$ npm install --save generic-pool@2.5 


node-pool 的 代码 就 能 够 加 入 到 npm 缓 存 中 ， 并 同时 将 其 添加 到 packag,json 中 。 一 个 MySQL 数 据 库 连接 池 的 简单 例子 如 下 所 示 。 


// 创建 一 个 MySQL 的 连接 池 ， 连 接 池 中 最 多 有 10 连 接 ， 最 少 有 2 个 连接 ， 连 接 超 时 时 间 为 30 秒 


Var Pool = require('generic-pool') .Pool; 
var mysql = require('mysql'); // v2.10.x 
var pool = new Pool (1 
name 'mysql', 
create : function (callback) { 
var c = mysql.createConnection ({ 
user: 'root', 
password: 'lab123', 
database: 'iotdb' 
t) 
// parameter order: err, resource 
callback(null, c); 
ty 
destroy 


i “Ti “aie 了 最 小 值 ， 


77 CI 
idleTimeoutMillis : 3000 

// 如 果 为 真 则 记录 日 志 

log : true 


{ client.end(); }, 


步 关 闭 连接 池 


E function (client) 


则 必须 在 最 后 调用 第 三 


获得 与 释放 连接 : 
// 获得 连接 
// 当 连 接 建立 后 调用 回调 函数 
pool.acquire (function (err, client) { 
if (err) { // 错误 处 理 
} 


else { 
client. "select * from foo", [], function() { 
// You has 连接 池 
// 释放 连接 


pool.release (client); 


D; 


关闭 连接 池 : 


// 只 能 在 想 关闭 连接 池 的 地 方 调用 一 次 

pool.drain(function() { 
pool.destroyAl1Now () ; 

D; 


在 上 面 的 例子 中 ， 通 过 设置 MySQL 数 据 库 连接 池 的 最 小 连接 数 为 2， 可 以 为 任务 预先 分 配 连 接 的 资源 ， 这 样 最 多 有 2 个 任务 可 以 避免 初始 化 连接 的 巨大 开销 与 时 间 ， 在 低 延迟 条 件 下 访问 MySQl 数 据 
库 ， 


3. 栈 上 分 配 


栈 上 分 配 是 Java 虚 拟 机 提供 的 一 种 优化 技术 ， 基 本 思想 是 对 于 那些 线程 私有 的 对 象 ( 指 的 是 不 可 能 被 其 他 线程 访问 的 对 象 ) ， 可 以 将 它们 打 散 分 配 在 栈 上 ， 而 不 是 分 配 在 堆 上 中 。 分 配 在 栈 上 的 好 处 是 
可 以 在 函数 调用 结束 后 自行 销毁 ， 而 不 需要 垃圾 回收 器 的 介入 ， 任 务 的 实时 性 就 有 了 保障 。 但 是 可 惜 的 是 ， 到 目前 为 止 javaScript 语 言 并 没有 和 Java 虚 拟 机 一 样 的 优化 技术 ， 或 许 未 来 会 将 栈 上 分 配 加 入 到 
V8 虚 拟 机 中 。 因 此 ， 要 实现 栈 上 分 配 ， 我 们 只 有 手工 来 将 对 象 打 散 ， 并 使 用 栈 上 的 变量 来 保存 打 散 后 的 对 象 的 值 ， 这 样 的 优化 虽然 会 比较 烦 珊 ， 但 有 时 在 一 些 关 键 的 实时 路 径 上 这 样 做 还 是 值得 的 。 有 时 一 
些 关键 路 径 会 被 频繁 调用 ， 而 如 果 在 这 些 地 方 使 用 堆 上 分 配 会 产生 大 量 的 对 象 ， 并 触发 垃圾 回收 操作 停顿 程序 执行 。 而 为 了 手工 实现 栈 上 分 配 ， 我 们 需要 首先 了 解 一 下 V8 虚 拟 机 的 内 存 分 配 策略 。 


V8 虚 拟 机 所 有 的 对 象 分 配 都 是 放 在 堆 上 进行 的 ， 因 此 要 实现 栈 上 分 配 就 必须 使 用 基本 类 型 的 局 部 变量 ， 但 是 JavaScript 语 言 没有 块 作用 域 (也 就 是 大 家 在 其 他 语言 里 所 熟知 的 (作用 域 ) ， 而 仪 有 函数 作 
域 。 另 外 ，Javascript 还 有 像 闭 包 等 高 级 函数 编程 的 特性 ， 所 以 不 能 简单 地 把 基本 类 型 局 部 变量 等 同 于 栈 上 内 存 分 配 。 


和 Java 的 栈 上 分 配 一 样 ， 我 们 要 对 变量 做 逃逸 分 析 来 确定 基本 局 部 变量 是 不 是 真 的 是 栈 上 分 配 内 。 代 码 如 下 : 


function outer () { 
var x; // 真正 的 局 部 变量 
var y; // 具有 上 下 文 引用 的 变量 ， 被 inner1 引 用 
var z; // 具有 上 bean .被 inner2 引 用 
function innerl { // 内 部 
use (y); HO E 
/内 


a ea. 
iat 


Ei 
function inner2 // 内 部 B 


use (z); HT I E 759, 


E 
function inner3 () { /* 虽然 没有 引用 但 仍然 会 获取 到 函数 cuter 的 上 下 文 */ } 
return [innerl, inner2, inner3]; 


根据 逃逸 分 析 ，outer 函 数 返回 了 其 内 部 的 三 个 函数 inner1、inner2、inner3。 这 三 个 函数 会 在 作用 域 链 上 持 有 outer 的 上 下 文 ， 又 因为 inner1、inner2 使 用 了 闭 包 ， 即 使 outer 函 数 退 出 了 ， 而 函数 
inner1、inner2、inner3 的 引用 还 在 ， 变 量 y 与 z 仍 然 能 被 访问 ， 因 此 y 与 z 必 须 被 放 在 作用 域 链 的 outer 函 数 的 上 下 文中 ， 所 以 只 有 x 通 过 了 逃逸 分 析 ， 且 是 局 部 变量 ， 而 y 与 ?没有 通过 逃逸 分 析 ，y 和 z 只 有 在 
函数 inner1、inner2 和 inner3 的 引用 被 销毁 后 才能 被 释放 。 总 体 来 说 ， 闭 包 对 脚本 性 能 有 负面 影响 ， 这 包括 处 理 速 度 和 内 存 消 耗 ， 因 为 闭 包 直 接 破坏 了 局 部 变量 ， 使 其 通 不 过 逃逸 分 析 ， 通 不 过 也 就 阻止 了 
V8 进 行 栈 上 分 配 的 可 能 。 


对 于 使 用 with 语句 或 者 try-catch 语 句 的 JavaScript 代 码 ， 其 逃逸 分 析 就 不 是 那么 明显 了 : 


function complication () 
var x; // RAL FMS lawen 
function inner() { /* 虽然 没有 引用 但 仍然 会 获取 到 函数 cuter 的 上 下 文 */ } 
try { } catch (e) { /* 包括 隐 含 的 with 语句 */ } 
return inner; 


由 于 inner 内 有 try-catch 语 句 ， 而 try-catch 语 句 默 认 隐 含 了 with 语句 ， 而 with 语句 会 获得 函数 complication 函 数 的 所 有 局 部 的 变量 信息 ， 因 此 x 将 被 分 配 在 堆 上 而 不 是 栈 上 。 


因此 ， 对 于 Javascript 实 时 任务 来 说， 应 尽量 在 任务 内 部 使 用 JavaScript 基 本 类 型 ， 不 使 用 对 象 、 闭 包 与 try-catch 等 高 级 语言 特性 ， 以 减少 不 必要 的 堆 上 内 存 分 配 。 


3.3.2” 延 时 测量 与 性 能 优化 


除了 内 存 分 配 的 优化 技术 ， 我 们 也 可 以 对 Nodejjs 事 件 循环 进行 优化 以 提高 任务 的 实时 性 ， 但 是 优化 事件 循环 是 与 程序 的 需求 任务 、 罗 辑 紧密 相关 的 ， 并 没有 一 般 化 的 优化 方法 ， 需 要 具体 问题 具体 分 
析 ， 因 此 也 超出 了 本 书 的 范围 。 总 体 上 ， 我 们 可 以 借鉴 网 络 处 理 器 的 一 些 优化 方法 来 提高 时 间 循 环 的 实时 性 ， 将 强 实时 任务 作为 独占 任务 执行 ， 这 样 其 执行 时 间 相对 固定 拌 动 较 小 ， 将 准 实时 任务 打 散 成 多 
个 执行 时 延 可 控 的 小 任务 在 强 实时 任务 间隙 执行 。 在 本 节 中 ， 我 们 介绍 如 何 使 用 工具 来 测量 时 延 并 辅助 我 们 对 Nodejjs 实 时 任务 的 性 能 优化 。 


1. 时 延 测量 


要 对 实时 性 任务 进行 时 延 优化 ， 最 重要 、 最 关键 的 一 环 就 是 时 延 的 测量 。 从 基本 概念 出 发 ， 测 量 时 延 就 是 在 程序 开始 的 时 候 记 录 程 序 的 开始 时 间 ， 然 后 在 程序 结束 的 时 候 记 录 程 序 的 结束 时 间 ， 两 个 时 
间 的 差 值 就 是 时 延 。 为 了 获得 程序 的 高 精度 时 延 ， 我 们 必须 使 用 高 精度 的 时 间 测 量 工 具 。 幸 运 的 是 ， 现 代 处 理 器 (包括 嵌入 式 处 理 器 ) 在 硬件 上 使 用 的 高 精度 定时 器 提供 了 这 样 的 功能 ， 我 们 不 需要 任何 第 
三 方 的 仪器 设备 就 能 准确 地 测量 程序 的 时 延 。Linux 提 供 了 访问 高 精度 定时 器 的 函数 接口 gettimeofday()， 而 Nodejs 与 之 对 应 的 是 node-microtime 包 ， 在 node-microtime 包 内 部 使 用 JavaScript 对 Linux 的 
gettimeofday() 接 口 进行 了 分 装 。 只 需要 在 自己 的 工程 目录 下 执行 如 下 命令 : 


$ npm install --save microtime 


就 可 以 将 node-microtime 加 入 到 NPM 缓 存 中 并 同时 将 其 添加 到 packag.json 中 ， 使 用 test 命 令 可 以 得 到 当前 时 间 和 处 理 器 定时 器 支持 的 最 大 精度 : 


$ npm test microtime 
> microtime@2.1.2 test /home/zhizhouli/node_modules/microtime 


> node test.js 

microtime.now() = 1491276450454944 
microtime.nowDouble() = 1491276450.455906 
microtime.nowStruct () [ 1491276450, 456085 ] 


Guessing clock resolutionhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17567/OEBPS/Text/... 


Clock resolution observed: lus 


这 里 我 们 看 到 ， 当 前 系统 的 最 大 精度 是 1hs，microtime.now( 获 得 的 是 从 1970 年 1 月 1 日 


始 的 微 秒 数 。 使 用 microtime.now0 测 量 时 延 就 简单 了 : 


Var microtime = require ('microtime') 
r tl = microtime .now() 


va: 
// 用 户 程序 逻辑 


var delay = microtime.now() - tl // 获 得 时 延 测量 值 
2. 处 理 器 剖析 
性 能 优化 中 最 常用 的 是 处 理 器 剖析 (profiling) 。 许 多 用 于 做 剖析 的 第 三 方 工具 (包括 阿里 云 的 Alinode 以 及 听 云 的 Nodejs 分 析 器 ) 都 提供 了 图 像 化 的 分 析 工 具 。 但 是 大 部 分 情况 下 ,使 用 Node.js 内 
的 分 析 工 具 是 最 简单 的 。 其 内 置 调用 的 就 是 V8 本 身 的 剖析 器 (profiler) ， 它 可 以 在 程序 执行 过 程 中 对 栈 的 间隔 性 进行 抽样 分 析 。 使 用 剖析 器 可 以 很 方便 地 定位 代码 性 能 问题 ， 优 化 任务 时 延 。 
使 用 --prof 开 启 内 置 的 剖析 器 : 


node --prof app.js 


程序 运行 之 后 会 生成 一 个 isolate-0xnnnnnnnnnnnn-v8.log 在 当前 运行 目录 。 


可 以 使 


--prof-process 来 生成 报告 查看 : 


node --prof-process isolate-0xnnnnnnnnnnnn-v8.log 


报告 形 如 : 
[Summary] : 
ticks total nonlib name 
79 0.2% 0.2% JavaScript 
36703 97.2% 99.2% C++ 
7 0.0% 0.0% GC 
767 2.0% Shared libraries 
215 0.6% Unaccounted 


通过 分 析 性 能 分 析 报 告 ， 我 们 能 够 掌握 Node.js 的 所 有 执行 细节 数据 ， 能 够 定位 性 能 瓶颈 点 ， 辅 以 --trace_gc 参 数 做 垃圾 


优化 ， 降 低 任务 时 延 。 


3.3.3 Nodejjs 跨 语言 调用 


这 样 就 能 很 容易 对 实时 任务 的 性 能 做 出 


志 分 析 ， 发 现 垃圾 


前 面 我 们 讲 了 如 何 优化 Node.js 的 JavaScript 程 序 设计 来 避免 与 减少 垃圾 


回 


收 过 程 提高 系统 的 实时 性 ， 而 另外 一 种 方法 是 使 


网 网 关 程序 中 ， 正 如 我 们 在 堆 外 内 存 的 buffer 实 例 中 看 到 的 ， 通 过 C++ 的 标准 接口 分 配 的 内 存 并 不 受 Node.js 的 V8 引擎 垃圾 


CALC + + 来 实现 实时 任务 ， 并 将 实时 任务 作为 Nodejs C++ 


展 加 入 到 物 联 


回 


收 控制 ， 


此 Nodejs C++ 扩展 局 在 运行 过 程 中 不 会 出 现 因为 垃圾 回收 而 产生 


C++ 扩 | 


的 停顿 。 对 于 强 实时 任务 特别 是 时 延 要 求 极为 严格 的 任务 ， 推 荐 使 
Linux 内 核 程序 开发 的 相关 知识 。 在 后 


H] 


调用 方法 ， 很 好 地 解决 Nodejs 的 本 地 调用 问题 ， 因 为 没有 必要 为 了 调用 几 个 
题 。 通 过 node-ffi， 我 们 可 以 直接 在 JavaScript 中 访问 各 种 硬件 资源 ， 接 下 来 : 


首先 在 自己 的 工程 目录 下 执行 如 下 命令 安装 node-ffi: 


$ npm install --save ffi 


的 实践 篇 里 ， 我 们 会 给 出 Node.js C++ 
任务 的 数据 。node-ffi 模 块 内 部 包装 了 libffil6], FFI 的 全 称 是 Foreign Function Interface, 


展 来 满足 其 实时 任务 需求 ， 在 Linux 上 开发 设计 严格 实时 任务 超出 了 本 书 的 范围 


E 


展开 发 的 


体例 子 ， 在 这 里 我 们 把 注意 力 集中 在 JavaScript, 使 


， 其 需要 对 Linux 内 核实 时 补丁 的 深入 理解 及 
已 经 包装 好 的 node-ffi 模 块 来 实现 Node.js 访 问 外 部 实时 


是 一 个 跨 语言 的 库 函 数 调 
C++ 函数 就 开发 复杂 的 Node.js C++ 扩 
我 们 就 以 ADC 的 实时 采样 与 数据 读 取 为 侦 


接口 


。libffi 屏 蔽 了 跨 语言 动态 库 调 
展 。 另 外 ， 有 了 node-ffi， 访 | 
深入 学 习 node-ffi 的 使 


的 平台 相关 细节 ， 为 我 们 提供 了 一 个 清晰 统一 的 
难 的 问 


问 庶 入 式 物 联网 网 关上 的 硬件 资源 也 不 再 是 什么 困 
方法 。 


假设 C++ 编写 的 实时 任务 部 分 已 经 完成 ， 根 据 实 时 任务 设计 原则 ， 我 们 上 
， 并 已 经 提供 了 相应 的 C+ + 接 


void adc init (int frequent) 
// 初始 化 ADC 实 时 线程 ， 
int ado queue empty() // 检 查 绥 存 队列 是 否 为 空 ， 
int adc_queue_get () // 从 缓存 队列 读 取 数 据 


为 空 则 返 


1， 不 为 空 则 返 


并 以 采样 频率 frequent 进 行 采样 ， 采 样 数据 写 入 缓存 队列 


一 个 实时 线程 来 处 理 ADC 的 周期 采样 ， 并 将 采样 数 


居 放 入 缓存 队列 以 便 JavaScript 程 序 读 取 ， 这 个 C++ 程 序 编 译 为 libadc.so 的 


回 0 


JavaScript 控 制 ADC 并 读 取 采 样 数据 的 代码 如 下 : 


var ffi = require('ffi'); 
var libadc = ffi.Library('libadc', { 


‘adc_init': L 'void', L "iat! ] 1, 
‘ade_queue_empty': [ 'int', [ ] ], 
‘adc_queue_get': [ 'int', [ ] ] 


he 
libadc.adc_init (1000); // 启动 ADC 以 1000Hz 频 率 进行 采样 
setInterval (function () { 
while (libadc.adc_queue_empty ()==0) { 
console. log (libadc.adc_queue_get () ) 


} 
}, 100) // 间 隔 100ms 读 取 ADC 采 样 值 


3.3.4 Nodejs 物 联网 通信 协议 开发 


Nodejs 物 联网 网 关 完 成 了 实时 数据 的 采集 ， 并 对 数据 进行 了 一 些 处 理 后 ， 就 需要 通过 网 络 将 所 采集 的 数据 发 送出 去 ， 而 通过 网 络 发 送 数据 就 涉及 物 联网 通信 协议 的 开发 与 使 
此 Nodejs 物 联网 网 关 的 通信 协议 也 必然 是 基于 TCP/IP 协 议 的 。 


TCP/IP 的 ， 


1.Node.js HTTP 协 议 开发 


。 由 于 Node.js 是 基于 


在 基于 TCP/IP 的 物 联网 通信 协议 中 ， 比 较 著 名 和 常用 的 是 HTTP 和 MGQTT。 


在 目前 的 互联 网 络 中 ，RESTful 协 议 无 疑 具有 绝对 的 支配 地 位 ， 各 种 云 服务 、 数 据 传输 都 基于 这 一 接口 


JavaScript 在 浏览 器 端 大 量 应 


， 同 时 由 于 现在 的 手机 都 支持 使 


由 于 HTTP 是 服务 器 客户 端 协议 ， 因 此 要 建立 物 联 网 通信 ，JavaScript 程 序 也 要 分 成 两 个 部 分 ， 分 别 是 客户 端 部 分 和 服务 器 端 部 分 。 在 


HTTP 服 务 器 端 RESTful 协 议 轴 


F: 


var http = require ("http"), 


url = require ("url" 


) ， 


path = require ("path") 


var port = 8080 


http.createServer (function (req, res) { 


var pathname = url. 


// 响应 请 求 


// 获 取 RESTFul 协 议 的 请 求 路 径 


parse (req.url) .pathname; 


if (path.basename (pathname) == "echo") { 


res.writeHead (200, { 
"Content-Type": 


// 设 置 响应 头 
"application/json" // 类 型 为 JSON 
T: 
res.end(JSON.stringify({message:"Hello Word"})); // 添 加 响应 数据 


}) .listen (port) ; 
console.log("Server at 


// 在 Port 端口 上 监听 HTTP 报 文 


port " + port); 


来 进行 ， 而 RESTful 协 议 接口 底 


RESTful 协 议 访问 资源 ， 可 以 很 方便 地 将 手机 作为 终端 来 监控 、 控 制 整个 


HTTP 协 议 来 传输 数据 及 | 


物 联网 。 


JSON 数 据 格式 来 表示 数据 。 


有 务 器 端 ，Node.js 原 生 提供 了 HTTP 协 议 的 支持 ， 一 个 最 简单 的 


一 个 简单 的 客户 端的 请 求 如 下 : 


var http = require("http") 


http.get ("http://localhost:8080/echo", function (res) {// 发 出 请 求 
var body = ''; 
res.on('data', function (data) { // 响 应 数据 报 文 
body += data; 
D; 
// 响 应 结束 报 文 


res.on('end', function () { 
( 


console. log (JSON.parse (body) ) 


HH 


使 


2.Node.js CoAP 协 议 开发 


CoAP 是 受 限制 的 应 | 


能 无 法 很 好 地 满足 需要 。 而 且 微 型 设备 接 入 互联 网 非常 困难 。 


Nodejs 的 基本 接口 相对 来 说 比较 底 


协议 (Constrained Application Protocol) 。 


县， 并 且 代 码 的 开发 效率 较 低 ,在 


后 面 的 章节 及 实践 篇 中 ， 我 们 将 更 多 使 


随 着 物 联网 的 发 展 ， 将 会 有 更 多 的 设备 间 互 连 ， 而 这 些 设备 的 数量 将 远 超人 类 的 数量 ， 


封装 好 的 NPM 包 express 和 request。 


让 小 型 设备 实现 TCP 和 HTTP 


小 设备 可 以 接 入 互联 网 ，CoAP 协 议 被 设计 出 来 。CoAP 是 一 种 应 


第 一 ，CoAP 使 F 


URI。 在 HTTP 的 世界 中 ，RESTFu 
以 测量 温度 ， 那 么 这 个 温度 传感器 的 URI 被 描述 为 CoAP: 


协议 由 于 其 简单 性 和 适 


了 默认 UDP 端口 号 5683。 


/hostname:5683/sensors/temp。 在 这 里 


第 二 ， 
送 一 个 订阅 请 求 到 服务 器 端 


送 一 个 RST 复 位 请 求 ， 此 时 服务 器 便 会 


第 三 ，CoAP 块 传输 。CoAP 协 议 的 特点 是 传输 的 内 容 小 ] 
端 均 可 完成 分 片 和 组 装 这 两 个 动作 。 


CoAP 拥 有 订阅 模式 。 在 物 联网 的 世界 中 ，| 
。 从 该 时 刻 开始 计算 ， 服 务 器 便 会 记 住 客户 端的 连接 信息 ， 


清除 与 客户 端的 连接 信息 。 


户 需要 去 监控 某 个 传感器 ， 如 温度 或 湿度 等 。 在 这 种 | 
一 旦 温度 发 生变 化 ， 服 务 器 将 会 把 新 结 


[5、 精 简 ， 但 是 在 某 些 情况 下 不 得 不 传输 较 大 的 数据 。 在 这 种 情况 下 可 以 使 


崩 况 下 ，CoAP 客 户 端 并 不 需要 不 停 


吉 果 发 送 给 客 


端 。 如 果 客 户 端 不 再 希望 获得 


也 查询 CoAP 服 务 器 端的 数 


CoAP 协 议 中 的 某 个 选项 设 定 分 块 传输 的 大 小 ， 


居 变 化 情况 。CoAP 客 户 i 


在 这 种 情况 下 ， 基 于 HTTP 的 RESTful 协 议 可 
办 议 显然 是 一 个 过 分 的 要 求 。 在 这 种 大 背景 下 ， 物 联网 和 M2M (Machine to Machine) 技术 应 运 而 生 。 为 了 让 
层 协议 ， 其 很 多 特性 都 可 以 类 比 HTTP 得 到 ， 它 运行 于 UDP 协议 之 上 ， 而 不 是 像 HTTP 那 样 运行 于 TCP 之 上 。CoAP 协 议 非 常 小 巧 ， 最 小 的 


性 ， 在 Web 应 用 中 越 来 越 受 欢迎 ， 这 样 的 道理 同样 适用 于 CoAP。 一 个 CoAP 资 源 可 以 被 一 个 URI 所 描述 ， 例 如 一 个 设备 可 
CoAP 使 上 


端 可 以 发 


温度 检测 结果 ， 那 么 客户 端 将 会 发 


那么 服务 器 或 客户 


第 四 ，CoAP 支 持 服务 发 现 。CoAP 协 议 建 议 ， 服 务 器 端 应 该 支持 一 个 名 为 .well-knowny/core 的 URI， 该 URI 可 以 被 任何 客户 端 访问 。 一 个 专门 用 于 资源 发 现 的 服务 器 必须 侦 听 默认 的 5683 端 口 。 当 客户 
端 请 求 该 预先 协商 好 的 URI 时 ， 服 务 器 返回 一 系列 的 URI。 这 些 URI 遵 循 CoRE 连 接 标准 信息 格式 。 通 过 这 一 格式 ， 客 户 端 就 能 发 现 服务 器 所 提供 服务 的 具体 信息 []。 关 于 服务 发 现 的 内 容 ， 后 面 还 会 详细 讨 
论 。 

要 在 Node.js 中 使 用 CoAP 协 议 非常 简单 ， 首 先 在 自己 的 工程 目录 下 执行 如 下 命令 安装 : 

$ npm install coap --save 

CoAP Server 代 码 如 下 : 

var coal = require ('coap' // 加 载 ConaP 模 块 

var S = Re /创建 CCAE 服 务 


// 服 务 器 监听 到 request 后 执行 的 函数 
server.on(' request', function (req, res 


// 可 以 看 到 和 前 面 的 RESTfu1 协 议 类 似 ， ERMER 与 响应 


res.end('Hello ' + 


req.url.split('/') [1] + '\n') 


server.listen(function() { 


console. log (' serve: 


» 
CoAP Client 代 码 : 


Var coap = require('c 
var req ap. reque: 


Ca 
HED SET 


r started') // 服 务 器 启动 后 执行 的 函数 


oap") 
st ('coap://localhost/iot')// 设 置 请 求 变量 


req.on('response', function(res) { 


// 将 响应 结果 输出 


res.pipe (process.s 


req.end() 


启动 服务 器 端 与 客户 端 


3.Nodejs MQTT 协 议 开 发 


tdout) 


， 客 户 端 就 会 收 到 消息 Hello shine。 


MQTT 是 一 个 专 为 物 联 


设计 的 传输 协议 ， 用 于 轻 量 级 的 发 布 /订阅 式 消息 传输 ， 旨 在 为 低 带 宽 和 


议 。MQTT 协 议 针对 低 带宽 


络 、 低 计算 能 力 的 设备 做 了 特殊 的 优化 ， 使 得 其 能 适应 各 种 物 联 网 应 


0 不 稳定 的 网 络 环境 中 的 物 联网 设备 提供 可 靠 的 网 络 服务 。MQTT 是 专门 针对 物 联 网 开发 的 轻 量 级 
场景 四。 


传输 协 


物 联网 中 的 数据 传输 会 面临 很 多 问题 ， 比 如 在 网 络 不 稳定 的 情况 下 ， 如 何 保证 数据 的 传输 没有 问题 ， 如 何 保证 数据 不 被 重复 发 送 ， 连 接 断 开 后 如 何 进行 重 连 。 总 体 来 说 ， 物 联网 的 接 入 会 面临 以 下 几 个 


方面 的 挑战 。 


1) 设备 、 传 感 器 。 物 联网 接 入 对 终端 采集 和 控制 设备 要 求 高 ， 且 终端 的 改造 及 网 络 费 
2) 网 络 。 现 有 的 网 络 传输 带宽 参差 不 齐 ， 传 输 网 络 不 稳定 。 


3) 服务 器 。 高 并 发 情况 下 ， 多 客户 端的 接 入 能 力 及 消息 处 理 能 力 有 限 。 


成 本 也 比较 高 。 另 外 ， 其 对 终端 的 能 耗 要 求 也 比较 高 。 


MQTT 的 设计 思想 是 开源 、 可 靠 、 轻 巧 、 简 单 ，MQTT 的 传输 格式 非常 精 小 ， 


次 、 最 少 被 传 一 次 、 一 次 且 只 传 一 次 ) ， 如 果 客 户 端 意外 掉 线 ， 可 以 使 用 “遗愿 ”发 布 一 
1) 可 靠 传 输 。MQTT 可 以 保证 消息 可 靠 安全 地 传输 ， 并 可 以 与 企业 应 用 简易 集成 。 


2) 消息 推送 。MQTT 支 持 消息 实时 通知 、 丰 富 的 推送 内 容 、 


最 小 的 数据 包 只 有 2bit (位 ) ， 且 无 应 
条 消息 ， 同 时 支持 持久 订阅 。MQTT 在 物 联网 及 移动 应 


消息 头 。MQTT 可 以 保证 消息 的 可 靠 性 ， 它 包括 三 种 不 同 的 服务 质量 (最 多 只 传 一 
中 的 优势 如 下 。 


灵活 的 Pub-Sub 及 消息 存储 和 过 滤 。 


3) 低 带宽 、 低 耗 能 、 低 成 本 。MQTT 占 用 移动 应 有 并 且 带 宽 利 


程序 带宽 小 ， 


为 在 Node.js 中 使 


MQTT 协 议 ， 首 先 在 自 


己 的 工程 目录 下 执行 如 下 命令 安装 maqtt: 


75, eae), 


$ npm install --save mqtt 


接着 我 们 就 可 以 通过 Javascript 来 收发 MQTT 消 息 了 ， 这 里 我 们 使 
JavaScript 代 码 如 下 : 


了 一 个 开放 的 MQTT 消 息 代 理 服务 器 mqtt://test.mosquitto.org， 读 者 也 可 以 自行 搭建 本 地 的 MQTT 消 息 代理 服务 器 。 收 发 消息 的 


var mate = require ('mgtt') 


var client 


// 连 接 MOTT 消 息 RER 务 器 


client.on('connect', { 
client. subscribe (* presence') // 监 听 presence 这 个 会 话 
client.publish('presence', 


3) 


client.on('message' 


function () 


= mgtt.connect ('mqtt://test .mosquitto.org') 


"Hello mgtt') // 向 presence 会 话 发 送 消息 


function (topic, message) { 


// 收 到 presence 会 话 发 来 的 消息 息 触发 回调 事件 


// message is Buffer 
console.log (message.toString ()) 
client.end() 


B 


3.3.5 ”Nodejs 代 码 远程 部 署 与 更 新 


物 联网 通信 协议 成 了 物 联网 节点 与 后 台 管理 系统 的 连接 ， 有 一 个 天 然 的 需求 就 是 要 求 物 联网 能 够 实现 代码 的 远程 部 署 与 热 更 新 。 
设备 进行 回收 维护 通常 是 成 本 非常 高 晶 ， 甚 至 是 不 可 接受 的 。 而 物 联 网 节点 又 需要 满足 不 断 应 对 新 环境 与 新 应 用 的 需求 ， 所 以 在 物 联 
Javascript 本 来 就 是 用 于 实现 从 服务 器 端 向 客户 端 部 署 的 一 门 语言 ， 其 天 然 就 具有 在 网 络 上 实现 远程 部 署 的 属性 ， 实 现 远程 部 署 就 像 你 
署 与 热 更 新 也 是 一 个 比较 热门 的 研究 领域 ， 通 过 热 部 署 ， 物 联网 节点 可 以 实现 无 须 重新 启动 就 在 运行 过 程 中 远程 添加 新 功能 


通常 物 联网 节点 会 部 署 在 一 些 难于 维护 的 地 方 ， 在 这 些 地方 ， 对 物 联网 
节点 的 开发 中 ， 远 程 部 署 与 更 新 是 非常 重要 和 必要 的 一 个 功能 。 

浏览 器 下 载 JavaScript 脚 本 并 运行 一 样 简单 。 而 目前 Node.js 的 热 部 
、 远 程 修正 Bug。 由 于 Node.js 的 热 部 署 目 前 还 有 非常 多 的 限制 ， 并 没有 完美 的 解 


决 方案 ， 无 法 实现 任意 代码 的 热 更 新 。 在 物 联网 环境 中 ， 为 了 获得 可 靠 的 远程 部 署 与 更 新 且 充 分 利用 热 更 新 的 优势 ， 实 现 多 种 层次 的 更 新 模式 ， 需 要 将 普通 的 更 新 与 热 更 新 结合 在 一 起 使 用 。 
1. 普 通 远程 部 署 与 更 新 

最 简单 的 普通 代码 远程 部 署 与 更 新 方案 是 使 用 odemon，nodemon 通 常 在 开发 阶段 使 用 ，nodemon 会 监控 代码 变更 并 重启 Node.js 以 保证 总 是 使 用 最 新 的 代码 。 在 这 里 ， 我 们 利用 这 一 特性 来 实现 
Nodejs 的 远程 更 新 ， 只 要 我 们 通过 物 联网 通信 协议 传输 并 改变 了 Node.js 的 某 端 代码 ，nodemon 会 自动 重启 Node.js 运 行 最 新 的 代码 。 使 用 nodemon 需 要 将 其 作为 一 个 命令 行 安装 在 全 局 目录 下 : 

npm install -g nodemon 

-g 代 码 将 包 安 装 在 全 局 环境 而 不 是 node_module 本 地 包 缓存 中 ， 这 样 就 能 够 用 nodemon 而 不 是 Node.js 来 启动 我 们 的 程序 : 

nodemon ./server.js 

nodemon 提 供 了 --watch 参 数 来 指定 需要 监控 代码 的 目录 : 

nodemon --watch app --watch libs app/server.js 

里 只 监控 /app 和 ./libs 目 录 。 黑 认 情况 下 ，nodemon 的 监控 是 包括 指定 目录 子 目 录 的 。 默 认 情况 下 ，nodemon 只 监控 具有 ,js、.coffee、.litcoffee 和 json 扩 展 名 的 文件 改动 。 用 户 可 以 使 用 --exec 选 


项 来 添加 额外 需要 监控 的 文件 扩展 名 。 当 然 还 可 以 使 


-e(or--ext) 选 项 来 定制 


己 的 监控 扩展 名 列表 。 同 样 地 ， 也 可 以 使 用 --ignore 选 项 来 排除 一 些 目录 : 


nodemon --ignore lib/ --ignore tests/ 


也 可 以 指定 文件 : 


nodemon --ignore lib/app.js 


可 以 使 


模式 匹配 (注意 使 


引号 ) : 


nodemon --ignore 'lib/*.js' 


= 


利用 nodemon 提 供 的 这 些 模式 可 以 很 容易 地 实现 Node.js 代 码 的 多 层次 更 新 ， 将 可 以 进行 热 更 新 的 代码 加 入 到 --ignore 选 项 中 ， 使 得 nodemon 只 在 不 能 热 更 新 的 代码 被 更 新 时 起 作用 ， 就 能 实现 多 
次 的 更 新 服务 。 接 下 来 我 们 来 深入 研究 代码 热 更 新 。 


2. 热 更 新 


Nodejs 目 前 对 热 更 新 支持 还 不 完善 ， 仍 然 有 许多 问题 。Nodejs， 解 决 代 码 热 更 新 的 关键 问题 与 难点 有 以 下 三 点 [101。 


(1) 更 新 模块 代码 


要 解决 模块 代码 更 新 的 问题 ， 我 们 就 需要 回 到 系统 的 核心 Nodejjs 的 模块 管理 器 实现 。 再 强调 一 下 ， 
的 源 代 码 很 长 ， 这 里 就 给 出 模块 处 理 的 核心 的 代码 函数 Module._ load: 


理解 和 学 习 Nodejjs 的 最 好 方法 就 是 阅读 其 源 代 码 实现 ， 模 块 管理 器 实现 在 modulejs 中 。modulejs 


Module. load = function(request, parent, isMain) { 
if (parent) { 
debug ('Module._load REQUEST ' + (request) + ' parent: ' + parent.id); 


} 
// 获 取 当 前 要 加 载 的 模块 文件 名 filename 


var filename = Module. resolveFilename (request, 


// 查 找 文件 是 否 在 缓存 中 ， EUS PIRORI STT Cr 内 此 如 果 简 单 地 对 文件 进行 更 新 再 // 重 


var cachedModule = Module._cache [filename]; 
if (cachedModule) { 
return cachedModule.exports; 


T 
// 如 果 文件 是 原生 C++ 模 块 ， 那 么 使 用 原生 模块 加 载 器 加 载 filename 
// 对 交互 式 解释 器 rep1 模 块 做 了 特殊 处 理 
if (NativeModule.exists (filename)) { 
if (filename == 'repl') { 
var replModule = new Module ('repl'); 
replModule. compile (NativeModule.getSource('repl'), 'repl.js'); 
NativeModule. cache.repl = replModule; 
return replModule.exports; 
T 
debug('load native module ' + request); 
return NativeModule. require (filename) ; 


} 
/ /创建 模块 filename 


var module = new Module (filename, parent 


// 处 理 加 载 的 模块 文件 是 Node .js 的 主 程序 的 情况 ， ede server.js 中 的 server.js 是 filename 


if (isMain) { 
process.mainModule = module; 
module.id = '.'; 


T 
// 将 新 创建 的 模块 加 入 到 缓存 中 


Module. cache[filename] = module; 


Var hadException = true; 
try { // 尝 试 加 载 模块 filename 
module.load (filename); 
hadException = false; 
} finally { 
if (hadException) { 
delete Module. _cache[filename]; // 尝 试 失败 则 删除 缓存 内 容 
} 
} 


return module.exports; 


重新 加 载 一 次 ， 那 么 Node .js 会 认为 模块 已 


经 在 缓存 中 而 直接 将 已 经 缓存 的 模块 返回 回来 


分 析 完 modulejs， 更 新 模块 代码 的 方法 就 显而易见 了 ， 可 以 发 现 其 中 的 核心 就 是 Module._cache， 只 要 清除 了 这 个 模块 缓存 ， 下 一 次 请 求 的 时 候 ， 模 块 管理 器 就 会 重新 加 


delete require.cache[filename]; 
requre (filename) ; 


载 最 新 的 代码 了 : 


(2) 使 用 新 模块 处 理 请 求 


为 了 方便 分 析 ， 我 们 首先 给 出 一 个 基于 Express 的 Node.js 服 务 器 代码 ， 其 功能 与 前 面 的 RESTful 的 功能 


var express = require ('express'); 


var app = express (); // 导 入 express 框 架 
var port = 8080 
app.get('/echo', function(req, res) { // 响 应 echo URL 的 GET 请 求 


res.send(JSON.stringify ({message:"Hello Word"}))}); 
app. listen (port); 
console.log("Server at port " + port); 


一 样 ， 但 代码 就 简洁 多 了 ， 代 码 如 下 : 


首先 ， 如 果 我 们 的 所 有 服务 像 上 面 的 代码 一 样 ， 即 所 有 的 代码 均 在 同一 模块 或 同一 文件 内 ， 对 模块 进行 热 加 载 是 无 法 实现 的 。Nodejs 中 要 实现 热 更 新 必须 要 以 文件 或 模块 为 单位 ， 每 次 都 是 对 整个 文件 


不 频繁 更 新 的 基础 代码 server.js 如 下 : 


// server.js 基础 代码 

var express = require ('express'); 

var app = express () 7 

var router = require('./app.js'); // 加 载 需 要 热 更 新 的 app .js 业务 代码 
var port = 8080 

app.use (router); 

app. listen (port); 

console.log("Server at port " + port); 


与 模块 进行 更 新 。 那 么 对 单个 模块 和 文件 的 更 新 就 是 更 新 全 部 程序 ， 这 就 等 于 重启 Node.js， 而 且 类 似 app.listen 这 类 操作 如 果 


新 执行 了 ， 那 么 和 重启 Nodejs 进 程 也 没 太 大 的 


nodemon 的 普通 更 新 模式 。 我 们 需要 使 用 一 些 无 法 进行 热 更 新 的 基础 代码 控制 更 新 流程 ， 将 频繁 更 新 的 业务 代码 与 不 频繁 更 新 的 基础 代码 隔离 开 。 


区 别 了 ， 那 样 就 回 到 了 使 


频繁 更 新 的 业务 代码 app.js 如 下 : 


// app.js 业务 代码 

var express = require ('express'); 

var router = express.Router(); 

router.use (express.static('public')); 

router.get('/echo', function(req, res) { 
res.send(JSON.stringify ({message:"Hello Word"}))}); 

module.exports = router; 


经 过 这 样 处 理 之 后 ， 虽 然 成 功 地 分 离 了 核心 代码 ，routerjs 依 然 无 法 进行 热 更 新 。 


首先 ， 由 于 缺乏 对 更 新 的 触发 机 制 ， 服 务 无 法 知道 应 该 何 时 去 更 新 模块 。 


其 次 ，app.use 操 作 会 一 直 保 存 老 的 routerjs 模 块 ， 因 此 即使 模块 被 更 新 了 ， 请 求 依然 会 使 


老 模块 处 理 而 非 新 模块 。 


因此 要 对 基础 代码 serverjs 继 续 进 行 改进 ， 启 动 文件 监听 作为 触发 机 制 ， 并 且 通 过 闭 包 来 解决 app.use 的 缓存 问题 。serverjs 代 码 如 下 : 


// server.js 基础 代码 

var express = require('express'); 
var fs = require('fs'); 

var app = express () 7 

var router = require('./app.js'); 
var port = 8080; 

app.use(function (req, res, next 


// 利用 eae cer eee ee 避免 app.use 缓 存 router 对 象 


router (req, res, 
app.listen (port) ; 


next);}); 


console.log("Server at port " + port); 
// 监听 文件 修改 并 重新 加 载 代 码 
fs .watch (require.resolve('./app.js'), function () { 


cleanCache (require. resolve('./app.js'))7 
try { 

router = require('./app.js'); 
} catch (ex) { 

console.error('module update failed"); 


function cleanCache (modulePath) { 
delete require.cache[modulePath] ; 
T 


// 释 放 不 需要 的 模块 缓存 


修改 好 了 serverjs 代 码 ， 代 码 热 更 新 已 经 初 
能 ， 也 会 如 预期 一 样 进行 更 新 。 


雏形 了 。 试 着 在 程序 运行 过 程 中 修改 一 下 appj 家 


会 发 现 新 的 GET 请 求 会 使 


最 新 的 app.js 代 码 。 除 了 修改 appjs 的 返回 内 容 外 ， 还 可 以 试 试 修改 路 由 功 


当然 ， 要 实现 一 个 完善 的 热 更 新 方案 需要 更 多 结合 自身 方案 做 一 些 改进 。 首 先 ， 在 中 间 件 的 使 


向 Nodejs 进 程 发 送信 号 或 者 访问 一 个 特定 的 URL 等 方式 来 触发 更 新 。 


(3) 释放 老 模 块 的 资源 


在 代码 热 更 新 已 经 初 具 锥 形 了 ， 仍 然 有 一 个 问题 需 
当 一 个 对 象 没有 被 任何 对 象 引 


认真 和 
的 时 候 ， 这 个 对 象 就 会 被 标记 为 可 


上 ， 我 们 可 以 在 app.use 处 声明 一 些 不 需要 热 更 新 或 者 每 次 更 新 不 希望 寻 
router.use 处 则 可 以 声明 一 些 希 望 可 以 灵活 修改 的 中 间 件 。 其 次 ， 文 件 监听 不 是 仅 监听 路 由 文件 ， 而 是 要 监听 所 有 需要 热 更 新 的 文件 。 除 了 文件 监听 这 种 手段 外 ， 还 可 以 结合 编辑 器 的 扩 


究 ， 这 就 是 老 模 块 的 资源 如 何 释放 的 问题 ， 实 际 上 需要 先 了 解 Nodejjs 的 内 存 回收 机 制 ， 这 已 经 在 第 2 章 做 了 详细 的 分 析 。 简 重 
回收 ， 并 会 在 下 一 次 GC 处 理 的 时 候 释放 内 存 。 


E 复 执行 的 中 间 件 ， 而 在 
展 功能 ， 在 保存 时 


地 总 结 一 下 ， 


那么 对 于 老 模块 的 资源 如 何 
们 修改 了 一 下 appjs 的 代码 并 简化 了 server.js 代 码 : 


// app.js 
var array = 
for (var i = 0; i < 10000; i++) { 

array.push('mem_leak when require cache clean test item ' + i);} 
module.exports = array; ` E ~ T ~ = ~ 
// server.js 
function cleanCache 


[l]; 


(module) 


{ 


var path = require.resolve (module) ; 


require.cache[path] = null;} 
setInterval (function () { 

var code = require('./app.js'); 

cleanCache('./app.js');}, 10); 


这 里 人 为 提高 了 appjjs 模 块 的 内 存 占用 率 ， 使 得 内 存 问题 可 以 很 快 暴 露出 来 ， 那 么 ; 
从 appjs 与 serverjsjs 的 代码 中 观察 ， 我 们 并 没 发 现 哪里 保存 了 老 模 块 的 引用 。 
面 的 内 存 泄漏 : 


回 


function Module(id, parent) { 
this.id = id; 
this.exports = {}; 
this.parent = parent; 
if (parent && parent.children) { 
parent.children.push(this); < // 造 成 内 存 泄漏 的 模块 引用 ， 父 模块 持 有 子 模块 的 引用 
this.filename = null; 
this.loaded = false; 
this.children = []; 


因此 ， 我 们 可 以 调整 一 下 cleanCache 函 数 ， 将 这 个 引用 在 模块 更 新 的 时 候 一 并 去 除 。 


// server.js 
function cleanCache (modulePath) { 
var module = require.cache [modulePath] ; 
// remove reference in module.parent 
if (module.parent) { 
module.parent.children.splice (module.parent.children.indexOf (module), 1); 


require.cache[modulePath] = null;} 
setInterval (function () { 
var code = require('./app.js'); 


cleanCache (require.resolve('./app.js'));}, 10); 
再 执行 一 下 代码 ， 这 次 就 没有 前 面 遇 到 的 内 存 问题 了 ， 说 明 老 模块 占用 的 资源 已 经 正确 地 释放 掉 了 


JavasScript 事 件 循环 会 引入 许多 对 代码 的 引 
时 ， 我 们 可 以 重启 Nodejs,， 使 


， 在 实际 应 
普通 代码 更 新 以 解决 问题 。 


3.3.6 ”Nodejs 服 务 发 现 


在 3.3.5 节 中 ， 我 们 认真 研究 了 Nodejs 物 联网 节点 的 热 更 新 ， 


释放 的 问题 ， 如 何 让 老 模块 的 代码 更 新 后 ， 确 保 没 有 对 象 保持 了 该 模块 的 引 


热 更 新 的 过 程 中 就 容易 忘记 了 系统 还 持 有 老 代 码 的 引 


呢 ? 首先 我 们 给 出 一 个 例子 来 看 看 者 模块 资源 不 回收 会 出 现 什么 问题 。 为 了 让 结果 更 显著 ， 我 


听 次 启动 serverjs 后 ， 就 会 发 现 内 存 出 现 显著 碳 升 ， 不 到 一 会 儿 Node:js 就 提示 process out of memory。 然 而 实际 上 
到 Nodejs 标 准 库 源 代码 modulejs， 我 们 发 现 Nodejjs 会 自动 为 所 有 模块 添加 一 个 引用 ， 正 是 这 个 引用 没有 被 释放 造成 了 前 


。 将 上 面 对 cleanCache 的 修改 放 到 前 面 的 serverjs 中 ， 我 们 就 得 到 了 完整 的 热 更 新 代码 。 
， 在 物 联 网 系统 中 使 


由 于 
代码 热 更 新 需要 非常 谨慎 并 经 过 严格 测试 。 当 系统 热 更 新 出 现 问题 


由 于 Nodejs 代 码 可 以 热 更 新 ， 我 们 可 以 动态 地 为 Nodejs 提 供 新 的 服务 与 功能 ， 那 么 一 个 显然 的 需求 就 是 需要 为 物 联网 Node.js 节 点 提供 网 


络 服务 发 现 功能 。 另 外 ， 在 第 2 章 ， 我 们 学 习 了 服务 器 端的 微服 务 架构 ， 随 着 微服 务 架构 理论 与 实践 在 服务 器 端的 兴起 ， 物 联网 的 节点 网 络 也 开始 应 用 并 部 署 微服 务 架构 ， 用 JavaScript 编 写 的 基于 Nodejs 
的 每 一 个 物 联 网 节点 都 可 以 作为 一 个 大 系统 中 的 微服 务 ， 通 过 RESTful 协 议 接口 提供 自己 的 服务 。 当 有 多 个 物 联网 网 关 组 成 网 络 ， 每 个 网 关 作为 微服 务 的 节点 时 ， 一 个 重要 的 需求 就 是 服务 的 注册 与 发 现 ， 万 
其 是 在 物 联网 环境 中 有 时 候 连 接 是 不 可 靠 的， 需要 有 一 套 服务 发 现 机 制 来 获得 当前 网 络 中 的 可 用 服务 。 因 此 ， 基 于 Nodejs 的 物 联 网 必须 提供 服务 发 现 机 制 。 前 面 我 们 已 经 在 CoAP 协 议 中 遇 到 过 单个 节点 的 
服务 发 现 了 ， 在 这 里 我 们 利用 大 数据 领域 的 分 布 式 服务 框架 ZooKeeper 来 实现 整个 网 络 可 用 服务 的 注册 与 发 现 [11]。 

分 布 式 服务 框架 ZooKeeper 是 Apache Hadoop 的 一 个 子 项 目 ， 其 已 经 被 广泛 应 用 到 大 数据 云 计算 领域 中 。 在 分 布 式 应 用 中 ， 由 于 工程 师 不 能 很 好 地 掌握 和 使 用 锁 机 制 ， 以 及 基于 消息 的 协调 机 制 不 适 
合 在 某 些 应 用 中 使 用 ， 需 要 有 一 种 可 靠 的 、 可 扩展 的 、 分 布 式 的 、 可 配置 的 协调 机 制 来 统一 系统 的 状态 。ZooKeeper 的 目的 就 是 解决 这 些 问题 ， 它 主要 用 来 解决 分 布 式 应 用 中 经 常 遇 到 的 一 些 数据 管理 问 


题 ， 如 统一 命名 服务 、 状 态 同步 服务 、 集 群 管理 、 


分 布 式 应 


配置 项 的 管理 等 。ZooKeeper 的 典型 应 | 


场景 包括 配置 文件 的 管理 、 集 群 管理 、 同 步 锁 、 


领导 (leader) 选举 、 队 列 管理 等 。 而 使 


ZooKeeper 来 做 服务 发 现 正 是 利用 了 其 状态 同步 


RS, it 


(leader) 。 集 群 中 的 所 有 服务 器 的 数据 都 会 与 领导 者 保持 同步 ， 每 个 连接 到 服务 器 的 客户 端 (client) 
者 并 最 终 同步 到 所 有 服务 器 ， 这 样 ZooKeeper 就 完成 了 一 个 分 布 式 同步 机 制 ， 所 有 的 F 


3-7 所 示 是 一 个 ZooKeeper 集 群 的 典型 结构 ， 一 般 一 个 ZooKeeper 集 群 会 由 奇数 台 的 服务 器 (server) 组 成 ， 奇 数 台 服务 器 保证 了 整个 集群 能 够 通过 选举 算法 选 


同步 整个 系统 的 服务 状态 来 注册 与 发 现 当 前 物 联网 网 关 集 群 中 的 服务 。 


出 一 个 服务 器 作为 领导 者 
都 能 读 到 与 领导 者 保持 一 致 的 数据 副本 。 当 有 客户 端 修改 了 服务 器 上 的 数据 时 ， 修 改 会 被 同步 到 领导 


户 看 到 的 数据 都 保持 一 致 。 


ZooKeeper Service 


在 ZooKeeper 中 被 同步 的 数据 以 目录 结构 来 组 织 ， 在 读 写 修改 ZooKeeper 存 储 的 数据 时 ， 可 以 将 数据 系统 想象 成 一 个 文件 系统 ， 读 写 数据 就 是 读 写 


注册 与 发 现 过 程 可 以 总 结 如 下 : 


1) 在 某 一 以 服务 名 为 目录 名 的 路 径 下 ， 写 入 需 


图 3-7 ZooKeeper 集 群 的 典型 结构 


注册 的 服务 的 实例 名 ; 


2) 通过 遍历 根 目录 的 下 级 目录 来 发 现 所 注册 的 服务 ， 通 过 遍历 某 一 目录 下 的 实例 名 来 发 现 所 注册 的 服务 实例 。 


ZooKeeper 服 务 发 现 目录 结构 如 下 所 示 : 


录 结 构 上 的 文件 。 基 于 这 一 数据 的 


录 结 构 ， 服 务 


root path 
| service A name 


| instance 1 id --> (serialized ServiceInstance) 
| instance 2 id --> (serialized ServiceInstance) 
| http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17567/OEBPS/Text/... 


service B name 


| instance 1 id --> (serialized ServiceInstance) 
| instance 2 id --> (serialized ServiceInstance) 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_¢ book uncompressed /7 1 201/ OBBES/TeXt/ << 
http://www. hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17567/OEBPS/Text/. . 


为 实现 Node.js 服 务 发 现 ， 必 须要 在 Node.js 中 使 


ZooKeeper 协 议 与 ZooKeeper 集 群 通信 ， 首 先 在 自己 的 工程 目录 下 执行 如 下 命令 安装 ZooKeeper Client: 


$ npm install --save node-zookeeper-client 


假设 已 经 在 本 地 安装 和 启动 了 ZooKeeper 并 使 F 


默认 端口 2181， 那 么 通过 下 面 的 代码 就 可 以 完成 服务 的 注册 过 


var zookeeper = require ('node-zookeeper-client') ; 
var client = zookeeper.createClient ('localhost:2181'); 


var path = '/serviceA/instance'; 
client.once('connected', function () { 
console. log ("Connected to the server. 


// 创 建 一 个 序列 化 的 短暂 节点 ， aT RR 


新 开 与 ZooKeeper 的 连接 时 ， 该 节点 会 自动 删除 ， 序 // 列 化 指 节点 在 创建 时 会 加 上 唯一 序号 


client.create(path, CreateMode.EPHEMERAL SEQUENTIAL, function (error) { 


if (error) { 


console.log('Failed to create node: %s due to: %s.', path, error); 


} else { 


console.log('Node: %s is successfully created.', path); 


client.close(); 
Ds 
T: 


client.connect () : 


通过 下 面 的 代码 可 以 完成 服务 的 发 现 过 程 


var zookeeper = require ('node-zookeeper-client') ; 
var client = zookeeper.createClient ('localhost:2181"'); 


var path = '/'; 
function listChildren(client, path) { 


client .getChildren ( 
path, 
function (event) { 
console.log('Got watcher event: 
listChildren (client, path); 
tr 
function (error, children, stat) { 
if (error) { 
console.log ( 
'Failed to list childrel 
path, 
error 
); 
return; 
f 
console.log ('Children of node: 
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client.once('connected', function () { 
console.log('Connected to ZooKeeper.'); 
listChildren(client, path); 

he 


client.connect () ; 


// 从 根 目录 开始 发 现 所 有 服务 


%s', event); 


776 IHS THNH T TE HR HR > HM, 


n of node: %s due to: %s.', 


%s are: %j.', path, children); 


// 当 连接 上 ZooKeeper 后 ， 开 始 服务 发 现 


// 尝 试 连接 


[1] 参考 http://blogcsdn.net/leoleocs/article/details/50384982。 


[2] 引用 https://zh.-wikipedia.org/wiki/ 对 象 池 模式 。 
[3] 引用 https://my.oschina.net/itsyizu/blog/548699。 


4] &# http: //stackoverfl ow.com/questions/5326300/garbage-collection-with-node-js/5328761#5328761 o 
5] 47 À http: / /nodejs.cn/api/addons.html#addons_wrapping_c_objects. 

6] 扩展 阅读 https://en.wikipedia.org/wiki/Libffi。 

[7] 引用 http://blog.csdn.net/xukai871105/article/details/17734163。 

8] 引用 http://www.infoq.com/cn/news/2014/12/maqtt-ibm-iots 

9] 扩展 阅读 https://github.com/mcxiaoke/mqtt。 


10] http:/ /fex.baidu.com/blog/2015/05/nodejs-hot-swapping/ 。 


11] 引用 https://tech.imdada.cn/2015/12/03/service-registry-and-discovery-with-zk。 


3.4 “loTjs 物 联网 节点 开发 


越 来 越 多 的 开发 人 员 开始 采用 Nodejjs 作 为 物 联 网 开发 的 核心 ， 但 是 Nodejs 也 有 一 个 缺点 ， 即 其 完全 依赖 于 Linux 操 作 系统 。 没 有 Linux 操 作 系统 就 无 法 使 用 Node,js， 虽 然 Linux 有 谍 入 式 版 本 uclinux， 
由 于 是 最 精简 的 Linux 系 统 ， 受 限于 资源 和 内 存 ， 自 然 也 就 无 法 使 用 Node.js。 好 在 三 星 公司 也 意识 到 了 这 一 点 ， 开 发 并 开源 了 与 Node.js 类 似 的 JavaScript 执 行 环境 loT.js。 


三 星 公司 创 建 loT.js 这 个 项 目的 目的 是 让 JavaScript 开 发 者 能 够 利用 其 来 构建 物 联网 应 用 。 物 联网 设备 在 CPU 性 能 和 内 存 空 间 上 都 有 着 严格 的 制约 ， 三 星 公司 必须 要 通过 多 个 方面 的 设计 来 使 得 不 适合 
Node.js 的 物 联网 设备 能 够 运行 JavaScript。 因 此 ， 对 应 于 Node.js 中 的 V8 引擎 ， 三 星 公 司 设计 了 JerryScript 引 擎 。JerryScript 是 一 个 适用 于 嵌入 式 设备 的 小 型 JavaScript 引 擎 ， 它 能 够 运行 在 内 存 小 于 
64KB 和 且 全 部 代码 能 够 存储 在 不 足 200KB 的 只 读 存 储 器 (ROM) 上 ， 而 相对 的 Node.js 则 需要 至 少 11MB 的 存储 空间 及 8MB 的 内 存 空间 。 而 对 应 于 libuv， 三 星 公司 设计 了 更 轻 量 的 libtuv 来 处 理 异步 事件 
1/O。 这 样 的 结构 让 开发 者 能 够 创建 物 联网 服务 ， 让 设备 与 设备 、 外 界 之 间 交 互 。loT.js 目 前 运行 在 Linux 或 NuttX (一 个 实时 操作 系统 ) 上 ， 目 标 设备 为 树 莓 派 2 (Raspberry Pi 2) 和 意 法 半导体 开发 板 


(ST board) 等 常见 满 入 式 开发 系统 ， 后 续 计划 支持 其 他 微 控制 器 【MCU) 和 物 联网 设备 。loTjs 的 API 提 供 了 缓冲 、 控 制 台 、 事 件 、 通 用 答 入 /输出 接口 (GPIO) 、 流 (stream) 、 定 时 器 等 功能 [1 
“图 JeryScript+ 罗 异步 事件 IO E + O tee + @ BK 


JavaScript Application 


3 
b TS 


UO 事件 绑 定 
1 RE =l 
UO 事件 库 © IoT 互联 库 下 一 将 移植 IoTivity 


3-8 IoT.js 系 统 框 图 


如 图 3-8 所 示 : Q@loT.js 平 台 使 用 JerryScript 引 擎 来 运行 JavaScript 代 码 ;，Q@ 使 用 libtuv 库 来 实现 异步 事件 /OQ; @loTjjs 整 个 框架 提供 了 包括 网 络 、 文 件 系统 、 事 件 循环 等 一 系列 物 联网 系统 必需 的 功能 ， 
并 提供 了 JavaScript 到 C 语 言 的 绑 定 ; @ 未 来 还 会 添加 各 种 连接 支持 库 。 和 Node.js 相 比 ，loTjs 的 API 提 供 了 Node.js API 的 一 个 子 集 ， 最 大 限度 保留 了 物 联网 所 必需 的 功能 的 同时 ， 优 化 了 系统 的 资源 消耗 与 
体积 。 表 3-1 是 loT.js 与 Node.js 的 API 对 比 。 


表 3-1 IoT.js 与 Node.js 的 API 对 比 


loT.js API 
Assert 
Buffer 
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loTjs API 


Events 
File System 


HTTP 
Module 
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Process 


Stream 


Timers 


UDP/Datagram 


总 结 来 说 ， 一 个 和 
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Path 

Process 
Punycode 
Query Strings 
Readline 
REPL 

Stream 

String Decoder 
Timers 
TLS/SSL 
Tracing 

TTY 
UDP/Datagram 
URL 

Utilities 


< 
= 


Co 


ZLIB 


功能 描述 与 说 明 
测试 与 断言 
专 为 IO 操作 优化 的 堆 外 内 存 
C 与 C++ 扩展 


子 进 程 操作 。IoTjs 运行 于 实时 系统 ， 没 有 进程 相关 概念 


Node.js 集群 管理 操作 。IoT'js 运行 于 艇 入 式 系统 ， 一 般 没有 资源 运行 多 个 


JavaScript 实例 


(= 
n 


要 的 问题 是 loTjs 目 前 不 提供 与 压缩 、 加 密 相关 的 支持 ， 因 
有 Node.js 等 网 关 对 数据 进行 压缩 和 加 密 后 才能 通过 广域网 将 采集 的 数据 发 回 云端 。 


命令 行 选项 。 
控制 台 输 出 
MERE. PRATER Beh BE ae AE 
调试 库 

处 理 DNS 解析 


藤 入 式 系 统 不 一 定 有 命令 行 控 制 台 


较 弱 ， 无 法 运行 通用 的 加 密 库 


( 续 ) 
功能 描述 与 说 明 


将 多 个 UO 操作 作为 统一 的 一 个 组 来 处 理 ， 和 Node.js 集群 一 起 使 用 ，IoT. 


不 需要 

错误 输出 

事件 响应 驱动 

文件 系统 

提供 了 Node.js 全 局 变量 的 一 些 支 持 

HTTP 响应 

由 于 不 支持 加 密 ， 也 就 不 支持 HTTPS 

模块 加 载 

网 络 

IoTjs 支持 多 种 OS ， 无 法 提供 统一 的 OS 操作 
文件 路 径 的 支持 

处 理 Node.js 进程 相关 的 操作 ，IoTjs 仅 提 供 了 有 限 的 支持 
Bit SIF, MAMAS POCA BR 

URL 中 请 求 字段 的 解析 

从 文件 流 读 取 一 行文 本 

交互 式 编程 支持 ，IoT.js 的 能 人 式 系统 很 少 有 交互 式 编程 需要 
文件 流 支 持 

字符 串 译 码 

定时 吉事 件 循环 相关 支持 

传输 层 加 密 支持 

Node.js 跟踪 信息 支持 

文本 命令 中 端 ，IoT.js 有 自己 专门 串口 中 端 支持 
UDP 报 文 支 持 

URL 解析 

一 些 Node.js 常用 工具 

V8 引擎 相关 ，IoTjs 使 用 JerryScript 

虚拟 机 环境 相关 ，IoT.js 使 用 JerryScript 

Zip KLIF, RA Sb aie FET ABR, 一般 不 支持 压缩 


此 在 没有 特殊 设计 的 加 密 及 压缩 协议 的 前 提 下 ，1oTjs 无 法 在 广域网 上 直接 和 物 联网 后 台 云 服务 进行 敏感 数据 的 传输 ， 必 须 


[由 参考 http://blogcsdn.net/derek518/article/details/49952587。 


3.5 ”Espruino 的 物 联网 节点 开发 


loTjs 可 以 看 作 Nodejs 的 嵌入 式 裁剪 版 本 ， 但 是 很 多 嵌入 式 设备 连 这 样 的 要 求 也 无 法 满足 ， 那 么 在 这 样 的 嵌入 式 系统 里 就 只 能 使 


Espruino 在 国 


只 
ARES 


否 拥有 类 似 的 编程 经 验 


Chrome W 


动 特 性 使 得 它 可 以 尽 可 能 地 省 电 ， 超 低 功 耗 使 得 其 
区 等 一 系列 的 支持 。 唯 一 可 惜 的 是 ， 由 于 Espruino 是 独立 开发 的 ， 和 Node. 
JavaScript 开 发 程序 [1]。 


博 论坛 及 社 


开始 ， 两 者 的 相同 点 仅仅 是 都 使 


外 知 


名 的 众 筹 平台 KickStarter 上 发 布 之 后 才 为 人 所 知晓 ， 其 发 明 人 是 来 
Javascript 就 可 以 对 微 控制 器 进行 编程 ， 释 放 自 己 的 创意 。Espruino 开 发 板 是 一 个 小 计算 机 ， 任 何人 都 可 以 利 


， 都 可 以 进行 试验 和 开发 。 即 使 


128KB 存 储 空间 


Espruino， 其 只 需 


国 


R 


的 Gordon Williams。Espruino 是 一 种 运行 在 微 控制 器 上 的 软件 ， 实 现 了 Javascript 解 释 器 的 功能 ， 


外 加 8KB 内 存 。 


因此 


它 去 控制 身边 的 东西 。 它 的 JavaScript 解 释 器 给 F 
户 之 前 从 来 没有 编写 过 代码 ， 也 能 利用 图 形 化 的 代码 编辑 器 去 构建 自己 的 程序 而 不 用 输入 一 个 字符 。 


7 


[ 


欢 的 终端 应 


eb IDE 或 自己 


程序 ， 就 可 以 马上 编写 程序 了 。 可 以 使 


Web IDE 自 动 下 载 JavaScript 模 块 ， 这 些 模块 将 帮助 用 户 去 操作 : 


户 实时 的 反馈 ， 
只 要 把 Espruino 开 发 板 揪 到 计算 机 上 ， 使 


因此 不 管用 户 是 


其 对 应 的 硬件 ， 如 显示 器 和 无 线 模 组 。Espruino 的 事件 驱 


中 使 


普通 的 5 号 电池 就 能 运行 好 几 年 。 更 重要 的 是 Espruino 的 软件 和 硬件 都 是 开源 的 。Espruino 在 国内 


国 


有 良好 的 支持 ， 提 供 了 完整 的 生态 环境 ， 包 括 微 


js 没有 任何 相关 性 ， 我 们 不 能 将 运行 在 Nodejs 上 的 Javascript 稍 作 修改 就 拿 到 Espruino 上 来 用 ， 


[1] AAhttp://www.espruino.cn/forum.php?mod=viewthread&tid=8&extra=pagenote_56D1. 


3.6 本章 小 结 


在 本 章 中 ,我们 主要 学 习 了 如 何 设计 物 联网 的 前 端 数 据 收集 嵌入 式 系 统 。 首 先 我 人 
的 实时 性 ， 涵 盖 了 强 实时 、 准 实时 、 弱 实时 与 最 终 实时 ， 并 详细 分 析 了 实时 性 的 三 个 重 
系统 的 内 存 、 时 延 与 性 能 优化 技术 ， 这 些 技术 包括 堆 外 内 存 、 对 象 池 、 栈 上 分 配 、 时 延 测 量 与 处 理 器 剖析 。 


的 Nodejs 跨 语言 调用 、 传 输 数 据 的 物 联网 通信 协议 开发 、Nodejs 系 统 代码 的 远程 部 署 与 更 新 ， 以 及 物 联网 


] 学 习 了 嵌入 式 系统 的 主 包括 高 集成 度 、 资 源 受 限 、 长 寿命 、 


解决 方案 一 一 loT.js 与 Espruino。 


指标 一 一 延 时 、 抖 动 、 知 吐 量 。 在 这 些 理论 的 基础 上 ， 我 们 以 Nodejs 物 
同时 我 们 还 讲解 了 基于 Nodejjs 物 联网 数据 收集 系统 的 重要 开发 技术 ， 包 括 
节点 间 的 服务 发 现 。 最 后 ， 我 们 简单 介绍 了 在 无 法 应 


S48 ”基于 JavaScript 数 据 存储 与 处 理 


所 有 的 开发 都 要 重新 


环境 苛刻 。 接 着 ， 我 们 着 重 讨论 物 联 网 数据 收集 
KM RITA GIES 


研究 了 物 联 网 采集 


于 收集 物理 世界 数据 


Node.js 的 谋 入 式 系 统 中 ，Node.js 的 替代 


在 第 3 章 中 ， 我 们 详细 讨论 了 物 联 网 的 数据 收集 ， 通 过 物 联网 网 关 将 所 需要 的 数据 实时 收集 起 来 ， 并 通过 物 联网 协议 传输 到 网 络 上 。 那 么 接 下 来 就 需要 在 云端 对 传输 过 来 的 数据 进行 存储 与 处 理 。 通 常 云 


端的 服务 器 都 是 存放 在 数据 中 心 的 ， 


绍 目 前 常 


4.1 


的 大 数据 平台 (包括 Kafka、Spark、ElasticSearch) ， 并 


大 数据 基础 


展示 如 何 使 用 JavaScript 来 驱动 这 些 平台 实现 物 联网 数据 的 大 数据 实时 处 理 。 


大 数据 通过 将 不 同 数 据 源 的 数据 合并 在 一 起 实现 了 数据 维度 的 扩展 ， 提 供 了 在 更 高 维度 上 处 理 数据 的 能 力 ， 真 正 实现 数据 从 量变 到 质变 的 一 次 大 飞跃 中 ]。 


4.1.1 


数据 集 大 小 增长 的 部 分 原 
于 某 个 特定 的 组 织 来 说 ， 大 数据 的 定义 取决 于 持 有 数据 的 能 力 ， 以 及 其 平常 
于 其 他 组 织 来 说 ， 数 据 集 可 能 需要 达到 | 数 十 或 数 百 TB 才 会 对 他 们 造成 


指数 增长 


因 是 信息 


从 这 个 角度 来 看 ， 大 数据 其 实 没 有 办 法 以 大 小 来 定义 ， 


来 处 理 分 析 数 据 的 软件 的 能 力 。 对 于 某 些 组 织 来 说 ， 第 一 次 


扰 。 


四 


F 以 后 这 个 定义 的 容量 就 只 能 称 为 小 数据 了 。 


因为 当 定义 了 某 个 大 小 的 容量 是 大 数据 时 ， 很 快 由 于 数据 的 快速 增长 ， 几 


因此 存储 和 处 理 这 些 物 联网 数据 的 其 实 就 是 数据 中 心 的 大 数据 系统 。 在 本 章 中 ， 我 将 带领 大 家 来 学 习 大 数据 的 基础 知识 ， 承 接 第 3 章 ， 从 大 数据 的 实时 处 理 架构 切入 ， 介 


原 多 样 化 ， 且 可 持续 收集 ， 这 些 来 源 包括 搭载 传 感 设备 的 移动 设备 、 高 空 感 测 科 技 (遥感 ) 、 软 件 记录 、 相 机 、 麦 克 风 、 无 线 射频 辨识 (RFID) 和 无 线 传 感 网 络 。 对 
面 对 数 百 GB 的 数据 集 可 能 让 他 们 需要 重新 思考 数据 管理 的 选项 。 对 


因此 ， 我 们 不 能 以 容量 的 


大 小 来 定义 大 数据 和 飞跃 的 起 点 ， 而 是 要 从 增长 的 角度 来 定义 大 数据 。 从 20 世 纪 80 年 代 起 ， 现 代 存 储 器 的 容量 在 不 断 增长 ， 而 不 必 像 过 去 一 样 由 于 存储 空间 的 限制 而 必须 丢弃 一 部 分 数据 ， 这 种 全 数据 的 记 


录 模 式 是 


推动 大 数据 发 展 的 关键 


来 解决 指数 增长 的 数据 的 处 理 问题 的 技术 。 


G. \ 故 事 / 


\ 知 识 种群 的 S 形 增长 曲线 办 


在 高 中 生物 课程 中 ， 关 于 种 群 增长 有 这 样 一 段 档 述 : 种 群 的 增长 曲线 包括 ] 形 增长 曲线 和 S 形 增长 曲线 ， 如 图 4-1 所 示 。 


因素 。 正 是 这 一 模式 推动 了 数据 按照 存储 器 的 增长 模式 以 每 40 个 月 增加 一 倍 的 速度 增长 ， 我 们 将 这 一 增长 模式 命名 为 “指数 增长 ”， 而 指数 增长 便 是 大 数据 的 核心 ， 大 数据 


Wo K E 


ela 


SS 


O (K 为 环境 容纳 量 ) 时 间 


图 4-1 J 形 曲线 和 S 形 曲线 
J] 形 增长 曲线 : 在 食物 (养料 ) 和 空间 条 件 充裕、 气候 适宜 、 没 有 敌 害 等 理想 条 件 下 ， 种 群 的 增长 率 不 变 ， 数 量 会 连续 增长 。 其 实 ] 形 增长 就 是 指数 增长 。 


S 形 增长 曲线 : 在 自然 界 中 ， 环 境 条 件 是 有 限 的 ， 当 种 群 在 一 个 有 限 的 环境 中 增长 时 ， 随 着 种 群 密度 的 上 升 ， 个 体 间 由 于 有 限 的 空间 、 食 物 和 其 他 生活 条 件 而 引起 的 种 内 斗争 必 将 加 剧 ， 以 该 种 群生 物 为 
食 的 捕食 者 的 数量 也 会 增加 ， 这 就 会 使 这 个 种 群 的 出 生 率 降低 ， 死 亡 率 增高 ， 从 而 使 种 群 数量 的 增长 率 下 降 。 当 种 群 数量 达到 环境 条 件 所 允许 的 最 大 值 时 ， 种 群 数量 将 停止 增长 ， 有 时 会 在 K 值 保持 相对 稳 


定 。 


总 结 上 面 的 ] 形 与 5 形 增长 ， 可 以 看 到 自然 界 的 增长 模式 可 以 分 成 三 种 ， 即 指数 增长 ] 形 与 5 形 底部 、 对 数 增长 S 形 头 部 和 线性 增长 S 形 中 部 。 举 几 个 例子 ， 奥 运 会 短跑 的 成 绩 就 符合 对 数 增长 规律 ， 随 着 奔跑 
速度 约 接近 人 类 身体 机 能 ， 短 跑 成 绩 的 提高 越 困难 。 而 在 投资 中 的 红利 再 投资 就 是 符合 指数 增长 规律 ， 随 着 不 断 将 前 一 期 投资 获得 的 红利 作为 本 金 继续 投入 ， 财 富 将 按照 指数 规律 增长 。 而 人 们 常 说 的 一 分 
耕 耘 一 分 收获 ， 其 实 就 是 典型 的 线性 增长 ， 你 花 了 多 大 的 努力 相应 得 到 多 大 的 收获 ， 努 力 与 收获 成 正比 。 


随 着 处 理 器 频率 的 提高 越 来 越 困难 ， 多 核 并 行程 序 的 极限 也 将 很 快 到 来 ， 更 多 的 处 理 器 只 能 为 程序 的 性 能 带 来 对 数 增长 。 好 在 我 们 仍 能 够 将 数据 存储 下 来 ， 从 而 有 机 会 发 展 出 大 数据 技术 ， 并 点 燃 计算 
机 领域 指数 增长 的 “第 二 级 火箭 ”， 从 单 系统 性 能 的 S 形 曲线 的 顶端 切换 到 新 的 多 机 集群 的 新 j 形 曲线 低 端 ， 到 目前 单个 集群 的 机 器 最 大 数量 已 经 超过 8000， 并 仍然 在 继续 增长 中 。 


4.1.2 水平 扩 展 


由 于 提升 处 理 器 的 性 能 的 垂直 扩展 方式 已 经 进入 到 对 数 增 长 阶段 ， 因 此 大 数据 技术 要 实现 指数 增长 必然 要 选择 另外 的 方式 ， 即 水 平 扩展 。 水 平 扩展 模型 以 水 平 的 方式 扩展 大 量 完全 相同 的 机 器 来 提高 系 
统 处 理 的 性 能 。 这 些 机 器 配置 可 以 是 一 样 的， 也 可 以 是 不 一 样 的， 它们 联合 起 来 组 成 一 个 集群 来 共同 完成 一 项 任务 ， 图 4-2 所 示 是 水 平 扩展 的 一 个 例子 。 


扩展 前 


扩展 后 


Ram] [RAM ram] [RAM 


服务 


图 4-2 大 数据 水 平 扩展 


垂直 扩展 与 水 平 扩展 的 概念 不 是 大 数据 技术 首创 ， 其 最 早出 现在 Web 服 务 器 应 用 中 。Web 服 务 器 需要 为 成 二 上 万 的 用 户 提供 Web 服 务 ， 最 开始 服务 器 通过 垂直 扩展 来 应 对 Web 网 站 用 户 的 增加 ， 通 过 
增加 内 存 与 CPU 来 满足 用 户 的 请 求 ， 如 图 4-2 左 边 所 示 。 当 垂直 扩展 达到 极限 时 ， 自 然而 然 想到 的 解决 方案 就 是 用 多 台 机 器 组 成 集群 来 分 散 响 应 用 户 的 请 求 ， 集 群 中 的 每 台 机 器 仅 处 理 一 部 分 用 户 的 Web 服 
务 请 求 ， 在 前 端 采用 负载 均衡 将 Web 服 务 请 求 分 散 到 集群 中 的 每 一 台 机 器 上 ， 使 得 集群 中 单 台 机 器 的 负载 不 会 太 高 。 


ka 


大 数据 技术 是 在 Web 服 务 器 的 基础 上 发 展 起 来 的 ， 因 此 也 借鉴 了 Web 服 务 器 水 平 扩展 技术 ， 通 过 水 平 增加 服务 器 的 数量 来 完成 数据 处 理 的 指数 增长 ， 目 前 大 数据 技术 已 经 成 为 Web 服 务 的 核心 支持 技 
术 。 由 于 存储 器 容量 与 价格 仍然 能 够 按照 指数 增长 与 下 降 ， 因 此 我 们 仍然 能 够 通过 水 平 扩展 存储 器 的 方式 来 解决 大 数据 中 指数 增长 数据 的 存储 问题 。 而 如 何 解决 指数 增长 数据 的 处 理 问 题 是 4.1.3 节 的 重点 。 


4.1.3 MapReduce 


前 面 我 们 详细 研究 了 Google 的 V8 引擎 ， 它 的 出 现 改变 了 JavaScript 的 命运 。 在 大 数据 领域 ，Google 作 为 其 首创 者 与 领导 者 所 做 出 的 贡献 比 其 在 JavaScript 上 所 做 的 有 过 之 而 无 不 及 ， 甚 至 可 以 说 没有 
Google 就 不 会 有 大 数据 今天 的 发 展 。 而 在 所 有 大 数据 的 技术 中 ，Google 提 出 的 MapReduceB 慨 念 无 疑 是 开启 大 数据 之 门 的 那 把 钥匙 。 


1.MapReduce 流 程 与 数据 流 模式 


如 果 说 在 处 理 器 中 最 重要 的 是 处 理 器 运行 的 指令 集 的 话 ， 那 么 MapReduce 就 是 大 数据 中 运行 的 最 重要 的 指令 集 。 处 理 器 的 指令 集 定义 了 处 理 器 的 能 力 ， 而 MapReduce 定 义 了 大 数据 处 理 的 能 力 。 在 
4.1.2 节 ， 我 们 已 经 讨论 了 为 了 应 对 数据 的 指数 增长 ， 大 数据 通过 水 平 扩展 实现 了 指数 增长 数据 的 存储 ， 而 对 指数 增长 数据 的 处 理 是 由 MapReduce 操 作 来 完成 的 。 图 4-3 所 示 是 典型 的 MapReduce 流 程 。 
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图 4-3 MapReduce 流 程 


= 


在 数据 处 理 与 分 析 过 程 中 有 四 种 数据 流 模式 ， 分 别 是 一 个 输入 对 一 个 输出 、 一 个 输入 对 多 个 输出 、 多 个 输入 对 多 个 输出 、 多 个 输入 对 一 个 输出 。 所 有 的 数据 处 理 都 可 以 归纳 成 这 
MapReduce 模 式 包括 输入 /输出 模式 。 


种 模式 ， 整 个 


第 一 ，Map 模 块 是 一 个 一 个 输入 对 多 个 输出 的 模块 ， 所 有 输入 一 个 数据 产生 多 个 数据 的 数据 处 理 过 程 都 可 以 通过 Map 模 块 加 以 实现 ， 一 个 输入 对 一 个 输出 的 数据 处 理 流 可 以 作为 Map 模 块 的 一 个 特殊 情 
况 。 


第 二 ，Reduce 模 块 是 一 个 多 个 输入 对 一 个 输出 的 模块 ， 因 此 所 有 多 个 输入 对 一 个 输出 的 数据 处 理 模块 可 以 被 Reduce 模 块 实现 。 


第 三 ， 在 MapReduce 之 间 称 为 shuffle 的 过 程 是 多 个 输入 对 多 个 输出 的 数据 处 理 过 程 ， 其 将 多 个 Map 模 块 的 输入 按照 一 定 的 要 求 分 发 到 不 同 的 Reduce 模 块 中 去 。 


第 四 ， 通 过 整个 Map 与 Reduce 设 计 模 式 ， 大 数据 的 所 有 处 理 被 抽象 成 一 个 一 个 的 MapReduce 操 作 ， 如 果 一 个 MapReduce 操 作 不 能 完成 想 要 设计 的 数据 处 理 任务 ， 那 么 把 两 个 MapReduce 操 作 连 接 
起 来 ， 第 一 个 的 输出 作为 下 一 个 的 输入 来 实现 数据 处 理 的 逻辑 ， 以 此 类 推 ， 要 实现 一 个 特定 的 数据 处 理 算法 可 以 扩展 到 任意 多 个 MapReduce 操 作 以 表述 它 。 


2.MapReduce 操 作 的 优势 


通过 将 大 数据 算法 拆 解 成 一 个 一 个 Map 与 Reduce 操 作 ， 我 们 得 到 了 两 个 巨大 的 好 处 。 


首先 ， 我 们 只 需要 扩展 MapReduce 模 块 的 个 数 ， 就 能 实现 数据 处 理 的 弹性 水 平 扩 展 。 根 据 我 们 所 处 理 的 数据 量 ， 将 数据 分 成 不 同 的 分 片 ， 选 择 不 同 数量 的 Map 模 块 与 Reduce 模 块 来 处 理 这 些 分 片 ， 而 
分 片 思想 也 是 大 数据 中 的 一 个 核心 思想 ， 我 们 后 面 还 会 不 断 提 到 。 


其 次 ， 通 过 将 数据 处 理 拆 解 为 MapReduce 操 作 ， 我 们 可 以 将 一 个 大 的 数据 处 理 任务 分 解 到 不 同 的 Map 与 Reduce 模 块 中 ， 并 方便 地 在 集群 中 分 配 不 同 的 节点 来 处 理 这些 Map 与 Reduce 任 务 。 由 于 在 大 
数据 中 数据 已 经 存储 在 集群 的 各 个 节点 中 ， 将 要 处 理 数据 对 应 的 Map 与 Reduce 任 务 分 配 到 数据 分 片 所 在 的 节点 上 ， 最 大 限度 减少 了 网 络 传输 的 开销 ， 集 群 资源 被 充分 利用 起 来 ， 不 用 反复 等 待 网 络 传输 ， 
这 也 是 大 数据 的 核心 思想 ， 数 据 在 哪 计 算 去 哪 ， 我 们 在 后 面 也 会 不 断 提 到 。 


我 们 通过 将 算法 拆 解 成 Map 与 Reduce 任 务 ， 最 终 大 数据 的 处 理 问题 被 归结 为 数据 存储 与 处 理 ， 水 平 扩展 不 同 数量 的 节点 并 设计 基于 Map 与 Reduce 模 式 的 程序 来 完成 大 数据 的 数据 处 理 任务 。 
Odi 大 数据 简 史 与 Google 的 三 篇 论文 


要 谈 大 数据 的 历史 自然 绕 不 开 Google 在 大 数据 方面 的 开拓 性 工作 。Google 作 为 搜索 引擎 公司 ， 其 提供 的 最 基本 的 服务 就 是 根据 用 户 输 入 的 关键 字 ， 返 回 用 户 所 需要 的 网 页 。 系 统 首先 在 本 地 建立 一 些 组 
存 ， 当 用 户 发 出 一 个 搜索 请 求 时 ， 通 过 在 本 地 缓存 中 搜索 来 快速 返回 用 户 所 需要 网 页 的 连接 。 那 么 Google 的 第 一 个 需求 就 是 有 一 个 可 以 缓存 整个 网 络 上 网 页 内 容 的 文件 系统 。2003 年 ，Google 将 它 设 计 来 组 
存 网 页 快照 的 文件 系统 的 原理 写 在 了 一 篇 论文 里 公开 发 表 出 来 ， 这 就 是 Google File System (GFS) 四 。 有 了 大 数据 文件 系统 用 来 存储 网 页 的 快照 ， 第 二 个 需求 就 出 现 了 


在 数据 已 经 存储 在 分 布 式 文件 系统 
GEFS 后 ， 如 何 才能 高 效率 地 利用 这 些 数据 来 构建 搜索 引擎 需要 的 网 页 索引 呢 ? 在 2004 年 ，Google 将 其 方案 的 核心 思想 写 在 了 论文 《MapbReduce: Simplified Data Processing on Large Clusters》 上 中 。 随 着 业务 的 
增长 ，Google 发 现 其 搜索 索引 也 开始 快速 增长 ， 因 此 第 三 个 需求 就 产生 了 一 一 如 何在 大 数据 环境 下 构建 可 以 存储 海量 索引 的 数据 库 系 统 。2006 年 ，Google 将 其 方案 的 主要 思想 写 在 了 论文 《Bigtable:A 


Distributed Storage System for Structured Data» lp, 


Goosle 的 三 篇 论文 直接 黄 定 了 大 数据 的 基础 ， 完 成 了 大 数据 的 第 一 次 飞跃 ， 后 续 的 Hadoop、HBase、Cassandra 无 不 遵循 着 论文 的 思想 。 而 大 数据 的 第 二 次 飞跃 一 等 就 是 5 年 ， 加 州 大 学 伯克利 分 校 的 研究 
者 发 表 了 论文 《Resilient Distributed Datasets:A Fault-Tolerant Abstraction for In-Memory Cluster Computing» 上 四， 并 为 自己 的 大 数据 产品 起 名 为 Spatk。 其 引入 有 向 无 环 图 (DAG) 来 对 MapReduce 任 务 进 行 优化 ， 
并 利用 内 存 来 存储 中 间 数 据 处 理 结果 以 提高 数据 处 理 速度 。 纵 观 整 个 大 数据 的 历史 ， 我 们 可 以 看 出 大 数据 的 发 展 是 由 需求 推动 的 ， 正 是 互联 网 海量 数据 的 需求 推动 了 大 数据 一 步 一 步 地 发 展 ， 物 联网 的 发 展 


也 应 该 借鉴 大 数据 的 经 验 ， 寻 找到 真正 需要 物 联 网 的 应 用 需求 来 推动 物 联网 的 发 展 。 


4.1.4 高 可 用 性 


大 数据 采 


不 可 靠 ， 认 为 硬件 的 失效 是 常态 而 不 是 意外 ， 


所 谓 高 可 


统 损害 、 


在 线 服务 系统 和 大 数据 系统 通常 要 求 其 


大 数据 系统 为 业务 提供 支持 需要 极 高 的 可 靠 性 ， 那 么 它 是 如 何 完成 这 一 点 的 呢 ? 前 
于 这 些 领 域 中 的 系统 ， 如 果 出 现 故 障 系统 无 法 工作 ， 轻 则 飞机 坠毁 ， 重 则 国家 军事 行动 失败 ， 甚 至 发 生 核 泄漏 事故 。 
。 例 如 ， 在 火箭 系统 中 ， 通 常 每 一 个 子 系统 都 会 有 对 应 的 备份 子 系统 ， 当 


元 余 与 备份 机 制 


无 法 使 
为 平均 修复 时 间 。 


需要 软件 加 


性 是 指 系统 无 中 断 地 执行 其 功能 的 能 力 ， 代 表 系 统 的 可 
的 时 间 ， 以 及 由 无 法 运作 状态 恢复 到 可 运作 状态 的 时 间 ， 与 系统 总 运作 时 间 的 比较 来 度量 的 。 计 算 公式 为 A=MTBF/ (MTBF+MTTR) ， 其 中 A 为 可 


加 


性 达到 “5 个 9 标准 ” 


水 平 扩 展 来 实现 指数 增长 数据 的 处 理 ， 随 着 数据 的 指数 增长 ， 必 然 处 理 数 据 的 节点 


wae), Fy 


表 4-1 


可 用 性 
99.9999% 
99.999% 


99.99% 


99.9% 
99% 


所 不 同 的 是 ， 其 


容错 能 


RAR, BA 


(99.999%) ， 也 就 是 每 年 只 能 有 5 分 钟 左右 时 间 是 不 可 


可 用 性 与 年 故障 时 间 的 对 应 关系 


年 故障 时 间 


32 K 


性 系统 与 构成 该 系统 的 各 个 组 件 相 比 可 以 更 长 时 间 


=j 


也 呈 指 数 增长 。 当 集群 越 来 越 大 之 后 ， 故 障 就 变 得 不 可 避免 了 ， 所 以 大 数据 技术 在 设计 上 就 假定 了 硬件 是 
助 技术 来 处 理 硬件 失效 并 实现 系统 的 高 可 用 性 。 


运行 。 高 可 


5 分 15 秒 
52 分 34 秒 
8 小 时 46 分 
3 天 15 小 时 36 分 


系统 发 生 故 障 时 ， 


在 大 数据 中 ， 


的 高 可 


(1) 主 从 方式 ( 非 对 称 方式 ) 


工作 原理 : 
储 系统 解决 。 


(2) 双 机 双 工 方式 〈 互 备 互 援 ) 


工作 原理 : 两 台 主机 同时 运行 各 自 的 服务 且 相 互 监测 情况 ， 当 任 一 台 主 机 死机 时 ， 另 一 台 主 机 立即 接管 它 的 一 切 工作 ， 保 证 工作 实时 ， 应 


主机 工作 ， 备 机 处 于 监控 准备 状况 ; 当主 机 死机 时 ， 备 机 接管 主机 的 一 切 工作 ， 待 主机 恢复 正常 后 ， 按 使 


性 技术 包括 以 下 三 种 (其 中 前 两 种 模式 来 源 于 硬件 元 余 技 术 ， 是 硬件 元 余 的 软件 实现 ;后 一 种 模式 则 是 大 数据 的 创新 ) 。 


此 ， 在 这 类 系统 设计 之 初 也 将 高 可 
自动 切换 到 备份 系统 来 保证 整个 系统 正常 工作 。 大 数据 在 高 可 


性 系统 的 可 


性 是 根据 系 


性 ， MTBF 为 平均 故障 间隔 ，MTTR 


的 。 表 4-1 是 可 用 性 与 年 故障 时 间 的 对 应 关系 。 


面 我 们 讨论 过 航空 航天 、 军 事 、 核 工业 领域 的 实时 性 ， 而 高 可 用 性 也 是 这 些 领 域 的 一 个 重点 研究 与 工程 实践 目标 。 对 


性 作为 设计 的 


要 考量 指标 。 在 系统 设计 中 加 入 


使 用 了 软件 匈 余 备份 技术 替代 了 硬件 元 余 备份 技术 ， 在 集群 内 部 实现 了 节点 与 节点 间 的 宛 余 与 备份 ， 相 对 于 基于 硬件 的 匈 余 技术 大 大 降低 了 成 本 。 


(3) 集群 工作 方式 (多 服务 器 互 备 方式 ) 


工作 原理 : 283 


在 三 种 模式 中 ， 后 两 种 模式 是 大 数据 系统 中 的 常 


间 的 数据 同步 通过 Zookeeper 完 成 或 者 通过 分 布 式 文件 系统 完成 。 分 布 式 文件 系统 通常 采 
台 机 器 死机 后 ， 整 个 集群 仍然 能 找到 可 


4.1.5 “模式 可 复制 


机 一 起 工作 ， 各 自 运行 一 个 或 几 个 服务 ， 各 为 服务 定义 一 个 或 多 个 备 


模式 。 在 大 数据 集群 的 中 心 节点 上 ， 通 常会 对 一 些 集群 的 关键 管理 模块 实现 双 机 宛 余 ， 当 3 


机 ， 当 某 个 


的 数据 副本 。 回 


者 的 设 定 以 自动 或 手动 方式 将 服务 切换 到 


机 故障 时 ， 运 行 在 其 上 的 服务 就 可 以 被 其 他 主机 接管 。 


性 设计 上 也 借鉴 了 这 些 方法 ， 


机 上 运行 ， 数 据 的 一 致 性 通过 共享 存 


服务 系统 的 关键 数据 存放 在 共享 存储 系统 中 。 


节点 发 生 故 障 时 ， 备 份 节点 自动 接管 主 节点 的 功能 ， 节 点 
集群 工作 方式 ， 数 据 被 分 散在 集群 所 有 的 节点 上 ， 并 将 相同 的 数据 复制 多 份 放 在 不 同 的 节点 上 ， 从 而 保证 在 某 一 


现代 互联 网 无 论 是 其 科学 技术 还 是 商业 的 成 功 ， 其 本 质 都 是 模式 的 可 复制 性 ， 并 且 能 够 以 极 低 的 成 本 进行 复制 。 当 我 们 看 到 一 个 一 个 独 角 兽 公司 出 现时 ， 背 后 那些 投资 这 些 独 角 兽 公司 的 风险 投资 公司 


看 到 的 是 其 背后 商业 模式 的 可 复制 性 ， 虽 然 在 公司 运作 初期 他 们 没有 一 分 钱 盈 利 ， 甚 至 还 在 不 断 亏 损 ， 但 是 由 于 他 们 的 商业 模式 可 以 以 极 低 的 成 本 进行 复制 ， 而 这 种 复制 正 是 指数 增长 的 动力 所 在 。 风 险 投 
资 公司 正 是 为 了 追求 能 够 获得 指数 增长 的 好 处 ， 在 独 角 兽 公司 指数 增长 的 早期 向 其 投入 资金 ， 帮 助 那些 独 角 兽 公司 度 过 这 一 最 艰难 时 期 ， 以 获取 与 分 享 独 角 兽 公司 在 后 面 的 指数 增长 中 的 利润 。 而 作为 独 角 
兽 公 司 出 现 最 多 的 互联 网 行业 正 是 最 容易 实现 模式 可 复制 并 以 极 低 的 成 本 复制 的 行业 ， 也 是 最 容易 实现 指数 增长 的 行业 。 在 互联 网 上 ， 一 旦 某 一 种 商品 或 服务 能 够 形成 爆 款 ， 由 于 互联 网 复制 的 门槛 和 壁垒 
是 如 此 之 低 ， 那 么 很 快 这 种 商品 或 服务 的 模式 会 被 其 他 商品 和 服务 复制 过 去 ， 这 些 复制 了 爆 款 模式 的 商品 虽然 不 会 再 实现 爆 款 ， 但 是 也 能 实现 销量 的 增加 。 从 整个 互联 网 的 角度 来 看 ， 互 联网 就 完成 了 指数 
增长 。 由 于 互联 网 的 指数 增长 特性 ， 才 有 了 现在 的 互联 网 + ， 利 用 互联 网 的 指数 增长 来 带动 其 他 传统 行业 的 增长 。 而 脱胎 于 互联 网 的 大 数据 ， 继 承 了 互联 网 的 指数 增长 特点 ， 完 成 了 对 指数 增长 数据 的 处 
理 ， 那 么 我 们 也 可 以 利用 大 数据 的 指数 增长 来 带动 其 他 行业 的 指数 增长 ， 完 成 大 数据 +。 而 这 个 首选 的 大 数据 + 行业 自然 让 我 们 想到 了 物 联 网 。 用 物 联网 自动 收集 大 数据 ， 为 大 数据 插 上 物 联网 的 翅膀 。 使 有 
大 数据 承载 与 处 理 物 联网 数据 ， 为 物 联网 带 来 模式 可 复制 的 指数 增长 ， 完 成 物 联 网 + 大 数据 的 组 合 。 


1] 引用 https://zh.wikipedia.org/zh-cn/ 大 数据 数据 。 

2] http://baike.baidu.com/item/ 种 群 增长 曲线 。 

3] 引用 https:/ /zh.wikipedia.org/wiki/ MapReduce。 

4] 扩展 阅读 http://blog.bizcloudsoft.com/wp-content/uploads/Google-File-System 中 文 版 _1.0.pdf。 
5] 扩展 阅读 https://research.Google.com/archive/mapreduce-osdi04.pdf。 


6] 扩展 阅读 http://dblab.xmu.edu.cn/wp-content/uploads/2012/05/20120508_172346_207.pdf 


G 


扩展 阅读 https://www.usenix.org/system/files/conference/nsdi12/nsdi12-fi nal138.pdf。 


E 


引用 https://zh.wikipedia.org/wiki/ 高 可 用 性 。 


oS 


引用 https://baike.baidu.com/item/ 高 可 用 性 /909038?fr=aladdin。 


4.2 ”大 数据 实时 处 理 


在 第 3 章 ， 我 们 详细 研究 了 物 联网 节点 实时 数据 的 收集 ， 那 么 要 完成 物 联网 + 大 数据 就 必须 要 研究 大 数据 的 实时 处 理 ， 只 有 在 大 数据 上 完成 实时 处 理 ， 前 端 物 联网 节点 的 实时 数据 收集 才 有 价值 。 回 顾 大 
数据 简 史 ，Google 在 开发 大 数据 技术 时 ， 是 把 它 用 于 服务 与 搜索 引擎 的 ， 而 在 搜索 引 警 应 用 中 ， 网 页 的 缓存 索引 是 离线 进行 的 。Google 搜 索引 警 是 不 能 做 到 对 动态 网 页 上 不 断 变化 的 内 容 进行 索引 并 实时 
反映 到 搜索 结果 里 去 的 ， 而 MapReduce 的 设计 模式 及 高 可 用 性 也 是 为 批 处 理 而 设计 ， 不 适合 处 理 实时 任务 。 可 以 说 开始 的 大 数据 处 理 平台 基因 中 并 没有 实时 处 理 ， 因 此 实现 实时 大 数据 处 理 并 不 是 一 件 容 
易 的 事情 。 


4.2.1 ”时 间 序 列 


首先 相 比 非 实时 大 数据 处 理 系统 ， 实 时 大 数据 处 理 的 数据 类 型 为 时 间 序 列 。 什 么 是 时 间 序 列 ? 时 间 序列 是 用 时 间 排 序 的 一 组 随机 变量 ， 国 内 生产 总 值 (GDP) 、 消 费 者 物价 指数 (CPI) 、 上 证 指数 、 
利率 、 汇 率 等 都 是 时 间 序 列 。 时 间 序列 的 时 间 间 隔 可 以 是 分 、 秒 ， 甚 至 毫秒 、 微 秒 (如 高 频 金 融 数据 ) ， 也 可 以 是 日 、 周 、 月 、 季 度 、 年 ， 甚 至 更 大 的 时 间 单位 。 时 间 序 列 是 计量 经 济 学 研究 的 三 大 数据 形 
态 ( 另 两 大 数据 形态 分 别 为 横 截面 数据 和 纵 面 数据 ) 之 一 ， 在 总 体 经 济 学 、 国 际 经 济 学 、 金 融 学 、 金 融 工 程 学 等 学 科 中 有 广泛 应 用 ， 因 此 证 券 市 场 等 金融 市 场 是 最 广泛 的 应 用 时 间 序 列 的 领域 。 其 最 基本 的 
形式 是 时 间 与 数据 的 二 元 组 (timestamp，value) 。 而 在 实时 物 联网 数据 的 处 理 中 ， 我 们 最 常 遇 到 的 数据 类 型 就 是 时 间 序 列 。 时 间 序列 有 两 个 重要 特性 。 


“ 因果 性 : 因果 性 就 是 时 间 序 列 具 有 天 然 的 先后 顺序 ， 序 列 中 的 元 素 的 前 后 顺序 代表 了 它们 发 生 的 前 后 顺序 ， 前 面 的 元 素 先 发 生 称 为 因 ， 后 面 的 元 素 后 发 生 称 为 果 。 因 此 时 间 序 列 中 的 元 素 的 位 置 不 可 
调换 。 


: 不 变性 : 不 变性 就 是 时 间 序 列 记录 了 发 生 的 事件 ， 由 于 时 间 是 单 向 的 、 不 能 倒退 的 ， 因 此 当 事 件 发 生 被 记录 在 时 间 序 列 中 后 ， 其 不 会 再 发 生变 化 。 过 去 已 成 为 历史 ， 而 历史 无 法 改变 。 了 解 时 间 序 列 
的 特性 为 我 们 研究 实时 大 数据 、 寻 找 合适 的 处 理 方法 提供 了 有 力 的 支持 。 


4.2.2 Lambda 


为 解决 大 数据 的 实时 处 理 ， 实 时 数据 处 理 的 先驱 Nathan Marz 提 出 了 Lambda 架 构 。Marz 在 Twitter 工作 期 间 开 发 了 著名 的 实时 大 数据 处 理 框架 Storm， 而 Lambda[1] 架 构 正 是 其 根据 多 年 进行 分 布 式 实 
时 大 数据 系统 的 经 验 总 结 提炼 而 成 。Marz 认 为 实时 大 数据 系统 应 具有 以 下 关键 特性 四] : 


“ 容错 性 和 鲁 棒 性 〈fault-tolerant and robust) : 对 于 大 规模 分 布 式 系统 来 说 ， 机 器 是 不 可 靠 的 ， 可 能 会 死机 ， 但 是 系统 需要 即使 遇 到 机 器 错误 ， 依 然 是 健壮 、 行 为 正确 的 。 除 了 机 器 错误 ， 人 更 可 能 会 犯 
错误 。 在 软件 开发 中 难免 会 有 一 些 bug， 系 统 必须 对 有 bug 的 程序 写 入 的 错误 数据 有 足够 的 适应 能 力 ， 所 以 比 机 器 容错 性 更 加 重要 的 容错 性 是 人 为 操作 容错 性 。 对 于 大 规模 的 分 布 式 系统 来 说 ， 人 和 机 器 的 错 
误 每 天 都 可 能 会 发 生 ， 如 何 应 对 人 和 机 器 的 错误 ， 让 系统 能 够 从 错误 中 快速 恢复 尤其 重要 。 


+ 低 时 延 读 取 与 更 新 (Low latency reads and updates) : 很 多 应 用 对 于 读 和 写 操作 的 时 延 要 求 非常 高 ， 要 求 对 更 新 和 查询 的 响应 是 低 时 延 的 。 


“ 横向 扩容 (scalable) : 当 数 据 量 /负载 增 大 时 ， 可 扩展 的 系统 通过 增加 更 多 的 机 器 资源 来 维持 性 能 。 也 就 是 常 说 的 系统 需要 线性 可 扩展 ， 通 常 采 用 水 平 扩展 (通过 增加 机 器 的 个 数 ) 而 不 是 重 直 扩展 
(通过 增强 机 器 的 性 能 ) 。 


“ 通用 性 (general) : 系统 需要 能 够 适应 广泛 的 应 用 ， 包 括 人 金融 领域 、 社 交 网 络 、 电 子 商 务 数据 分 析 等 。 

“ 可 扩展 (extensible) : 需要 增加 新 功能 、 新 特性 时 ， 可 扩展 的 系统 能 以 最 小 的 开发 代价 来 增加 新 功能 。 

+ 方便 查询 (allows ad hoc queries) : 数据 草 含 价值 ， 需 要 能 够 方便 、 快 速 地 查询 出 所 需要 的 数据 。 

:易于 维护 (minimal maintenance) : 系统 要 想 做 到 易于 维护 ， 其 关键 是 控制 其 复杂 性 ， 越 是 复杂 的 系统 越 容易 出 错 、 越 难 维护 。 


: 易 调 试 (debuggable) : 当 出 问题 时 ， 系 统 需要 有 足够 的 信息 来 调试 错误 ， 找 到 问题 的 根源 。 其 关键 是 能 够 追根 溯源 到 每 个 数据 生成 点 。 


针对 以 上 实时 大 数据 系统 的 特点 ，Marz 将 实时 大 数据 系统 分 解 为 三 个 层次 ， 分 别 对 应 Lambda 架 构 中 的 批 处 理 层 (batch layer). BE (speed layer) 和 服务 层 (serving layer) ， 如 图 4-4 所 示 。 


批 处 理 层 


图 4-4 Lambda 架 构 


批 处 理 层 的 功能 主要 有 两 点 : 存储 数据 集 与 在 历史 数据 集 上 预先 计算 查询 。 其 主要 是 为 实时 处 理 提供 历史 数据 的 存储 ， 构 建 查询 所 对 应 的 数据 视图 (view) ， 并 且 在 高 速 层 出 现 故障 时 可 以 重新 回填 历 


对 于 数据 集 的 存储 ， 实 时 大 数据 处 理 的 是 不 可 变 的 因果 时 间 序 列 ， 因 此 批 处 理 层 采用 不 可 变 模型 存储 所 有 的 数据 。 因 为 数据 量 比较 大 ， 可 以 采用 大 数据 分 布 式 文件 系统 来 存储 数据 。 如 果 需 要 完全 按照 
数据 产生 的 时 间 先 后 顺序 存放 数据 ， 可 以 考虑 使 用 时 间 序 列 数 据 库 (Time Series Database, TSDB) 存储 方案 。 


(或 通过 简单 的 加 工 运算 就 可 得 到 结果 ) 而 无 须 重新 进行 完整 费时 的 计算 了 。 因 此 ， 批 处 理 层 也 看 成 一 个 数据 预 处 理 的 过 程 。 把 针对 查询 预先 计算 并 保存 的 结果 称 为 视图 ， 视 图 是 Lambda 架 构 的 一 个 核心 
概念 ， 它 是 数据 处 理 的 中 间 结 果 ， 是 针对 查询 的 优化 ， 通 过 视图 即 可 以 快速 得 到 查询 结果 。Lambda 架 构 批 处 理 层 如 图 4-5 所 示 。 


对 于 构建 查询 视图 ， 在 大 数据 环境 下 对 全 体 数据 集 在 线 运行 查询 函数 得 到 结果 的 代价 实在 太 大 ， 因 此 需要 预先 在 数据 集 上 计算 并 保存 查询 函数 的 结果 ， 当 有 实时 查询 请 求 的 时 候 就 可 以 直接 返回 结果 


批 处 理 视图 


所 有 数据 批 处 理 视 图 


批 处 理 视 图 


4-5 ”Lambda 架 构 批 处 理 层 


如 果 采 用 大 数据 分 布 式 文件 系统 来 储存 数据 ， 我 们 可 以 使 用 MapReduce 编 程 模式 在 数据 集 上 构建 查询 的 视图 。 有 了 批 处 理 层 ， 任 何人 为 或 机 器 发 生 的 错误 都 可 以 通过 修正 错误 后 重新 运行 批 处 理 层 的 
计算 来 恢复 得 到 正确 结果 。 


2. 高 速 层 


批 处 理 层 可 以 很 好 地 处 理 离线 数据 ， 但 有 很 多 场景 数据 不 断 实时 生成 ， 并 且 需 要 实时 查询 处 理 。 高 速 层 正 是 用 来 处 理 增 量 的 实时 数据 的 。 高 速 层 和 批 处 理 层 比较 类 似 ， 对 数据 进行 计算 并 生成 实时 视 
a, RESET: 高 速 层 处 理 的 数据 是 最 近 的 增 量 数据 流 ， 批 处 理 层 处 理 的 是 全 体 数据 集 ; 高 速 层 为 了 效率 ， 接 收 到 新 数据 时 不 断 更 新 实时 视图 ， 而 批 处 理 层 根据 全 体 离线 数据 集 直接 得 到 批 处 理 视 


Lambda 架 构 将 数据 处 理 分 解 为 批 处 理 层 和 高 速 层 有 如 下 优点 。 


1) 容错 性 。 高 速 层 处 理 的 数据 被 不 断 写 入 批 处 理 层 ， 当 批 处 理 层 重新 计算 的 数据 集 包 含 高 速 层 处 理 的 数据 集 后 ， 当 前 的 实时 视图 就 可 以 丢弃 ， 这 也 就 意味 着 高 速 层 处 理 中 引入 的 错误 ， 在 批 处 理 层 重新 
计算 时 都 可 以 得 到 修正 。 这 点 也 可 以 看 成 数据 库 理论 中 的 最 终 一 致 性 的 体现 。 图 4-6 所 示 为 随 着 时 间 的 流逝 ，Lambda 架 构 所 生产 的 视图 及 批 处 理 与 实时 处 理 在 视图 中 所 占 的 部 分 。 


批 处 理 实时 处 理 
批 处 理 实时 人 处理 


批 处 理 实时 处 理 


$e > 
时 间 


图 4-6 Lambda 架 构 高 速 层 实时 处 理 


2) 复杂 性 隔离 。 批 处 理 层 处 理 的 是 离线 数据 ， 可 以 很 好 地 掌控 。 高 速 层 采用 增 量 算法 处 理 实时 数据 ， 复 杂 性 比 批 处 理 层 要 高 很 多 。 通 过 分 开 批 处 理 层 和 高 速 层 ， 把 复杂 性 隔离 到 高 速 层 ， 可 以 很 好 地 提 
高 整个 系统 的 鲁 棒 性 和 可 靠 性 。 


3. 服 务 层 


Lambda 架 构 的 服务 层 用 于 响应 用 户 的 查询 请 求 ， 合 并 批 处 理 视图 和 实时 视图 中 的 结果 数据 集 到 最 终 的 数据 集 。 由 于 处 理 的 时 间 序 列 满足 不 可 变性 ， 因 此 只 要 服务 层 的 查询 函数 满足 单 群 (monoid) 性 
质 ( 即 结合 率 ) ， 就 只 需要 简单 地 合并 批 处 理 视图 和 实时 视图 中 的 结果 数据 集 即 可 生成 最 终 的 视图 。 如 果 查 询 函 数 不 满 足 单 群 性 质 ， 可 以 把 查询 函数 转换 成 多 个 满足 单 群 性 质 的 查询 函数 的 运算 ， 单 独 对 每 
个 满足 单 群 性 质 的 查询 函数 进行 批 处 理 视 图 和 实时 视图 中 的 结果 数据 集合 并 ， 然 后 计算 得 到 最 终 的 结果 数据 集 。 另 外 也 可 以 根据 业务 自身 的 特性 ， 运 用 业务 自身 的 规则 来 对 批 处 理 视 图 和 实时 视图 中 的 结果 
数据 集合 并 。 图 4-7 所 示 为 Lambda 架 构 服务 层 的 框图 。 
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图 4-7 Lambda 架构 服务 层 的 框 医 


Lambda 架 构 的 目标 是 设计 出 一 个 能 满足 实时 大 数据 系统 关键 特性 的 架构 ， 包 括 高 容错 、 低 时 延 和 可 扩展 等 。Lambda 架 构 整合 离线 计算 和 实时 计算 、 融 合 时间 序 列 的 不 可 变性 、 读 写 分 离 和 复杂 性 隔离 
等 一 系列 架构 原则 ， 可 将 Hadoop、Kafka、Storm、Spark、ElasticSearch 等 各 大 数据 组 件 集 成 在 一 起 实现 实时 大 数据 处 理 。 图 4-8 所 示 是 一 个 Lambda 架 构 完 整 框 图 。 
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图 4-8 Lambda 架 构 完整 框图 


4.2.3 ”JavaScript 物 联网 实时 数据 处 理 


在 JavaScript 物 联网 实时 数据 处 理 架构 中 有 两 种 架构 比较 常用 ， 分 别 是 Lambda 架 构 及 Kappa 架 构 。 


1.Lambda 架 构 


有 了 处 理 实时 数据 的 Lambda 架 构 ， 为 物 联网 设计 基于 JavaScript 的 实时 数据 处 理 就 容易 多 了 ， 我 们 只 需要 在 Lambda 架 构 的 框图 上 填 入 适用 于 JavaScript 的 大 数据 处 理 组 件 即 可 。 图 4-9 所 示 是 
JavaScript 物 联网 实时 数据 处 理 系统 Lambda 架 构 B1。 


在 时 间 序 列 流 输 入 侧 ， 我 们 选择 Kafka 大 数据 消息 总 线 来 做 数据 缓存 与 分 发 ， 物 联网 节点 的 实时 数据 首先 发 送 到 Kafka 数 据 总 线 中 ， 接 着 数据 被 Kafka 发 送 到 HDFS Hadoop 大 数据 文件 系统 上 作为 批 处 
理 层 的 数据 集 ， 并 使 用 Spark 内 存 大 数据 处 理 平台 对 数据 进行 处 理 ， 生 成 Lambda 架 构 的 批 处 理 视图 ， 这 些 视图 被 存储 到 ElasticSearch 大 数据 索引 平台 中 作为 服务 层 响应 请 求 。 同 时 数据 又 被 Kafka 发 送 到 流 
式 大 数据 处 理 平台 Spark Streaming, Spark Streaming 作 为 Lambda 架 构 的 高 速 层 生 成 实时 数据 视图 ， 视 图 同样 被 存储 到 ElasticSearch 中 。 批 处 理 视图 与 实时 视图 的 合并 可 以 由 ElasticSearch 完 成 , 也 
可 以 由 Spark 来 完成 。 系 统 通过 ElasticSearch 给 外 部 查询 提供 一 个 统一 的 接口 ， 同 时 ElasticSearch 也 可 以 充当 时 间 序 列 数据 库 ， 以 支持 外 部 程序 基于 时 间 序 列 的 查询 与 处 理 程序 。 
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图 4-9 JavaScript 物 联网 实时 数据 处 理 系统 Lambda 架 构 


2.Kappa 架 构 


如 果 我 们 将 图 4-9 中 的 Spark 与 Spark Streaming 合 并 在 一 起 作为 一 个 整体 ， 而 不 再 区 分 批 处 理 与 实时 处 理 ， 删 除 批 处 理 系统 ， 取 而 代 之 的 是 通过 流 系统 快速 提供 数据 ， 那 么 整个 Lambda 架 构 就 可 以 简 
化 成 Kappa 架 构 ， 如 图 4-10 所 示 。 
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图 4-10 Kappa 架构 


相应 地 ， 在 Kappa 架 构 的 框图 上 填 入 适用 于 Javascript 的 大 数据 处 理 组 件 ， 如 图 4-11 所 示 。 
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图 4-11 JavaScript 物 联网 实时 数据 处 理 系统 Kappa 架 构 


在 后 面 的 章节 中 ， 我 们 将 逐一 介绍 这 些 大 数据 组 件 (包括 组 件 的 原理 和 使 用 方法 ) ， 以 及 如 何 使 用 JavaScript 来 编写 程序 驱动 这 些 大 数据 组 件 完成 实时 数据 处 理工 作 。 


[由 扩展 阅读 http://lambda-architecture.net。 
[2] 参考 http://blogcsdn.net/brucesea/article/details/45937875。 


[3] http://www.raincent.com/content-85-7857-1.html。 


46 ”本 章 小 结 


在 本 章 中 ， 我 们 首先 学 习 了 物 联网 数据 处 理 技术 的 核心 一 一 大 数据 的 基础 知识 ， 理 解 了 大 数据 的 指数 增长 ， 为 满足 指数 增长 ， 大 数据 采用 了 水 平 扩 展 技术 ， 包 括 MapReduce、 高 可 用 性 ,实现 了 大 数 
据 模 式 的 可 复制 ， 使 用 不 同 的 节点 数量 来 满足 不 同 数据 量 的 需求 。 为 应 对 物 联 网 的 实时 性 需求 ， 我 们 又 进一步 学 习 了 大 数据 实时 处 理 系统 的 架构 ， 掌 握 了 这 一 架构 中 处 理 的 主要 数据 类 型 一 一 时 间 序 列 ， 以 
及 处 理 时 间 序列 的 两 个 基本 架构 一 一 Lambda 与 Kappa。 对 应 于 Kappa 架 构 中 的 各 个 模块 ， 我 们 深入 学 习 了 大 数据 消息 总 线 Kafka、 大 数据 处 理 平台 Spark 及 大 数据 索引 平台 ElasticSearch。 我 们 介绍 了 这 三 
个 开源 大 数据 软件 的 水 平 扩展 方式 、 高 可 用 性 实现 ， 并 给 出 了 使 用 Javascript 来 进行 编程 的 详细 实例 。 


第 5 章 ”基于 JavaScript 物 联网 数据 分 析 


当 我 们 利用 整个 物 联网 系统 收集 到 海量 数据 后 ， 首 先 想到 的 自然 是 如 何 从 这 些 收集 到 的 数据 中 挖掘 出 真正 有 价值 的 信息 。 在 本 章 中 ， 我 们 将 重点 放 在 如 何 利 用 人 工 智 能 技术 特别 是 机 器 学 习 技术 来 对 存 
储 在 大 数据 平台 上 的 数据 进行 自动 化 的 分 析 与 处 理 ， 实 现 数据 到 有 价值 信息 及 基于 信息 的 决策 的 全 自动 化 处 理 。 可 以 说 有 了 人 工 智能 技术 ， 大 数据 技术 才能 够 产生 源源 不 断 的 价值 ， 而 物 联网 作为 源源 不 断 
产生 数据 的 源头 才能 在 完成 数据 收集 、 数 据 处 理 、 数 据 分 析 这 个 价值 闭环 中 源源 不 断 地 产生 价值 。 为 让 物 联网 工程 师 能 够 以 零 基 础 来 学 习 用 于 数据 分 析 的 人 工 智能 技术 ， 在 本 章 中 ， 我 们 握 弃 人 工 智能 技术 
特别 是 机 器 学 习 技术 中 理论 与 数学 公式 的 部 分 ， 而 是 通过 实例 分 析 特 别 是 机 器 学 习 的 Javascript 代 码 实现 的 分 析 来 帮助 物 联网 工程 师 掌握 人 工 智能 与 机 器 学 习 技术 。 


5.1 ”人 工 智能 与 机 器 学 习 


人 工 智能 (Artificial Intelligence，Al) 亦 称 机 器 智能 ， 是 指 由 人 工 制造 出 来 的 系统 所 表现 出 来 的 智能 。 通 常人 工 智 能 是 指 通过 普通 计算 机 实现 的 智能 。 该 词 同 时 也 指 研究 这 样 的 智能 系统 是 否 能 够 实 
现 ， 以 及 如 何 实 现 的 科学 领域 []。 我 们 以 一 则 小 故事 来 深入 了 解 一 下 人 工 智能 。 


Gaur 人 工 智能 简 史 


人 工 物 能 发 展 至 今 已 有 六 十 多 年 ， 期 间 有 过 高 潮 ， 有 过 危机 。 人 工 智能 的 第 一 次 高 潮 出 现在 1955 年 的 达 特 茅 斯 会 议 口 之 后 ， 当 时 计算 机 技术 刚刚 兴起 ， 人 们 看 到 了 计算 机 的 处 理 速 度 与 能 力 之 后 ， 相 信 
很 快 就 能 够 使 用 计算 机 来 模拟 人 类 智能 的 行为 与 远 辑 能 力 。 这 一 阶段 一 直 持 续 到 了 1974 年 ， 期 间 还 提出 了 对 后 世 发 展 具有 深远 影响 的 人 工 神经 网 络 模型 。 然 而 由 于 计算 机 性 能 的 瓶颈 ， 特 别 是 内 存 的 瓶颈 ， 
在 几乎 整个 20 世 纪 70 年 代 ， 来 自 军 方 的 主要 研究 经 费 支 持 全 部 中 断 ， 人 工 智能 的 浪潮 突然 退去 。80 年 代 ， 随 着 人 们 对 人 工 智能 研究 方向 从 强人 工 智 能 向 弱 人 工 智能 的 转变 ， 特 别 是 专家 系统 的 提出 ， 人 工 智 
能 又 进入 了 一 个 黄金 时 期 。 通 过 导入 领域 专家 的 知识 再 加 上 计算 机 超 强 计算 能 力 的 辅助 ， 专 家 系统 解决 了 大 量 原来 使 用 通用 人 工 智能 不 能 解决 的 问题 ， 其 中 最 著名 的 就 是 [BM 的 “深蓝 ”在 1997 年 国际 象棋 
比赛 中 战胜 了 人 类 的 世界 冠军 。 然 而 未 曾 想 到 人 工 智能 从 复兴 走向 了 第 二 次 危机 。 这 次 危机 的 核心 问题 是 ， 人 工 智能 系统 需要 大 量 的 专家 参与 调试 ， 这 造成 了 系统 研发 成 本 居 高 不 下 ， 又 由 于 系统 的 非 通用 
性 ， 使 得 研发 人 工 智 能 的 商业 公司 无 法 公 利 。 到 了 20 世 纪 90 年 代 末 ， 人 工 智 能 的 方向 又 回 到 了 通用 人 工 智能 上 ， 这 时 早期 基于 机 器 学 习 技 术 的 神经 网 络 模型 得 以 复兴 。 利 用 机 器 学 习 技 术 ， 人 工 神 经 网 络 能 
够 从 数据 中 自动 学 习 知识 ， 而 不 需 专 家 帮助 ， 而 且 神 经 网 络 的 训练 学 习 算 法 是 通用 的 ， 对 应 不 同 领 域 仅 需要 使 用 不 同 的 数据 来 训练 神经 网 络 。 没 想到 的 是 ， 第 三 次 危机 来 得 更 快 了 ， 在 2002~2007 年 间 ， 机 
器 学 习 与 神经 网 络 的 研究 又 发 生 了 停滞 。 主 要 问题 是 当时 的 计算 机 架构 不 适合 神经 网 络 模型 的 实现 ， 极 低 的 计算 效率 严重 阻 三 了 神经 网 络 处 理 复杂 任务 的 效率 。2007 年 ， 在 计算 机 显卡 的 帮助 ， 研 究 人 员 终 
于 突破 计算 能 力 的 障碍 ， 使 用 深度 学 习 技 术 进 行 图 片 识别 ， 并 最 终 实 现 了 对 人 类 图 片 识别 的 超越 。 至 此 ， 人 工 智能 技术 以 深度 学 习 为 代表 进入 了 一 个 持续 至 今 的 繁荣 期 。 


机 器 学 习 是 人 工 智能 的 一 个 分 支 。 从 小 故事 中 我 们 知道 ， 人 工 智能 的 研究 是 一 条 自然 、 清 晰 的 脉络 一 一 从 以 “推理 ”为 重点 到 以 “知识 ”为 重点 ， 再 到 以 “学 习 ” 为 重点 。 显 然 ， 机 器 学 习 是 实现 人 工 
智能 的 一 个 途径 ， 即 以 机 器 学 习 为 手段 解决 人 工 智能 中 的 问题 。 机 器 学 习 已 发 展 为 一 门 多 领域 交叉 学 科 ， 涉 及 概率 论 、 统 计 学 、 荧 近 论 、 喇 分析、 计算 复杂 性 理论 等 多 门 学 科 。 机 器 学 习 理 论 主要 是 设计 和 
分 析 一 些 让 计算 机 可 以 自动 “学 习 ” 的 算法 。 机 器 学 习 算法 是 一 类 从 数据 中 自动 分 析 获 得 规律 ， 并 利用 规律 对 未 知 数据 进行 预测 的 算法 。 因 为 学 习 算法 涉及 了 大 量 的 统计 学 理论 ， 机 器 学 习 与 推断 统计 学 联 
系 尤为 密切 ， 也 被 称 为 统计 学 习 理论 。 算 法 设计 方面 ， 机 器 学 习 理论 关注 可 以 实现 的 、 行 之 有 效 的 学 习 算法 。 很 多 推理 问题 属于 不 可 计算 的 复杂 问题 ， 所 以 部 分 的 机 器 学 习 研 究 是 开发 容易 处 理 的 近似 算 
法 。 接 下 来 我 们 就 围绕 机 器 学 习 技术 来 学 习 其 中 的 重要 原理 及 如 何 将 机 器 学 习 技术 应 用 到 物 联 网 数据 分 析 中 。 


在 机 器 学 习 中 ， 最 重要 、 最 基本 的 学 习 是 监督 学 习 (supervised learning) 。 监 督学 习 是 一 种 机 器 学 习 方 法 ， 其 可 以 从 训练 资料 中 自主 学 到 其 中 的 模式 或 者 建立 一 个 函数 关系 ， 并 依 此 模式 推测 新 的 实 
例 Bl。 训 | 练 资料 由 输入 数据 和 预期 输出 数据 组 成 ， 这 也 是 监督 一 词 的 由 来 ， 因 为 在 学 习 的 训练 资料 中 已 经 给 出 了 系统 学 习 完成 后 期 望 的 输出 ， 因 此 这 一 学 习 方 式 就 如 同学 生 在 老师 的 监督 下 学 习 知识 ， 首 先 
老师 给 出 要 求解 的 问题 ， 然 后 学 生 自 主 得 出 结果 ， 最 后 老师 给 出 相应 的 标准 答案 供 学 生 订正 自己 的 结果 。 图 5-1 给 出 了 监督 学 习 的 基本 框图 。 


输入 训练 实际 输出 


数据 


学 习 系 统 


首先 学 习 系统 有 一 组 输入 数据 ， 根 据 这 组 输入 ， 学 习 系 统 会 产生 一 组 输出 ， 这 组 输出 会 和 训练 集中 对 应 的 期 望 输出 作 比 较 以 获得 一 个 误差 信号 ， 监 督学 习 系统 再 根据 误差 信号 对 自身 进行 调整 以 减少 下 
次 的 误差 信号 。 在 这 里 ， 学 习 系 统 的 输出 可 以 是 一 个 连续 的 值 ( 称 为 回归 分 析 ) ， 也 可 以 是 一 个 离散 分 类 标签 ( 称 作 分 类 ) 。 在 物 联 网 数据 分 析 中 ， 我 们 可 以 找到 许多 应 用 监督 学 习 来 进行 数据 预测 的 例 
子 。 在 后 面 的 章节 中 ， 我 们 会 分 别 使 用 一 个 连续 值 的 监督 学 习 算法 和 一 个 离散 分 类 标签 的 监督 学 习 算法 作为 例子 来 加 深 对 监督 学 习 的 理解 。 


1. 梯 度 下 降 


在 监督 学 习 过 程 中 ， 一 个 重要 的 环节 就 是 根据 误差 信号 来 调节 优化 监督 学 习 系统 的 参数 ， 在 这 个 环节 上 最 常用 的 方法 为 梯度 下 降 (gradient descent) 算法 。 梯 度 下 降 算法 是 一 个 一 阶 最 优化 算法 ， 通 
常 也 称 为 最 速 下 降 法 。 要 使 用 梯度 下 降 算法 找到 一 个 函数 的 局 部 极 小 值 ， 必 须 向 函数 上 当前 点 对 应 梯度 (或 者 是 近似 梯度 ) 的 反方 向 的 规定 步 长 距离 点 进行 迭代 搜索 。 如 果 相 反 地 向 梯度 正方 向 进行 迭代 搜 
索 ， 则 会 接近 函数 的 局 部 极 大 值 点 ， 这 种 算法 称 为 梯度 上 升 法 。 图 5-2 所 示 是 梯度 下 降 算法 的 示意 图 内 。 


[ 


图 5-2 梯度 下 降 


可 以 将 梯度 下 降 算 法 比 作 胞 山 ， 在 图 5-2 中 ， 每 一 条 圆 形 的 线 就 是 这 座 山 的 等 高 线 ， 从 山上 某 一 点 xo 开 始 息 山 的 最 优 路 径 就 是 不 断 沿 着 等 高 线 的 垂直 方向 攀登 ， 因 为 等 高 线 的 垂直 方向 正 是 高 度 上 升 最 快 
的 方向 ， 这 一 方向 就 是 等 高 线 的 梯度 方向 。 在 图 5-2 中 ， 梯 度 方向 用 箭头 表示 。 在 一 次 迭代 中 ， 我 们 沿 着 梯度 方向 从 x0 点 走 到 x1 点 ， 在 x1 点 ， 我 们 更 新 梯度 方向 ， 并 沿 着 新 的 梯度 方向 走 到 xz 点 ， 我 们 以 这 样 


2. 线 性 回归 


理解 了 梯度 下 降 的 概念 ， 接 下 来 我 们 来 研究 如 何 将 梯度 算法 应 用 到 监督 学 习 的 连续 值 回 归 问 题 中 。 在 回归 问题 中 ， 最 简单 的 是 线性 回归 (linear regression) 。 线 性 回归 是 做 数据 分 析 与 预测 的 最 简单 
的 模型 ， 有 时 候 在 做 物 联网 数据 分 析 的 过 程 中 ， 使 用 简单 的 线性 回归 就 能 得 到 不 错 的 数据 预测 效果 。 


在 统计 学 中 ， 线 性 回归 是 利用 称 为 线性 回归 方程 的 最 小 二 乘 函 数 对 一 个 或 多 个 自 变量 和 因 变 量 之 间 的 关系 进行 建 模 的 一 种 回归 分 析 。 这 种 函数 是 一 个 或 多 个 回归 系数 的 模型 参数 的 线性 组 合 。 只 有 一 个 
变量 的 情况 称 为 简单 回归 ， 多 于 一 个 自 变量 的 情况 称 为 多 元 回归 由。 (这 反 过 来 又 应 当 由 多 个 相关 的 因 变量 预测 的 多 元 线性 回归 区 别 ， 而 不 是 一 个 单一 的 标量 变量 。) 


在 这 里 ， 我 们 以 苹果 公司 股票 的 线性 回归 为 例 深入 分 析 基 于 梯度 下 降 算 法 的 线性 回归 JavaScript 实 现 。 同 样 的 方法 可 以 很 容易 迁移 到 物 联网 的 测量 数据 的 线性 回归 中 。 


图 5-3 是 基于 梯度 下 降 算法 的 苹果 公司 股票 的 线性 回归 结果 ， 曲 线 是 作为 训练 数据 的 苹果 公司 股票 的 实际 价格 ， 直 线 代表 的 是 线性 回归 的 结果 ， 线 性 回归 的 结果 必然 是 一 条 直线 。 
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图 5-3 基于 梯度 下 降 算 法 的 苹果 公司 股票 的 线性 回归 结果 


读者 可 以 通过 链接 https://plot.|W~lizhizhou/2V/aapl-stock-prices/# plot 访 问 线性 回归 结果 的 交互 版 本 。 在 这 里 我 们 使 用 了 plot.ly 云 服务 ，plot.ly 云 服务 为 我 们 提供 了 开 箱 即 得 的 数据 可 视 化 服务 ， 方 
便 我 们 使 用 简单 的 几 行 JavaScript 代 码 就 能 在 网 页 上 实现 非常 漂亮 的 数据 可 视 化 ， 有 关 如 何在 物 联 网 中 使 用 各 种 云 服 务 的 内 容 请 参阅 第 9 章 ， 有 关 如 何在 网 页 上 实现 数据 可 视 化 的 内 容 可 以 参看 第 6 章 。 


接 下 来 我 们 通过 代码 来 理解 基于 梯度 下 降 算法 的 线性 回归 原理 ， 这 里 我 们 使 用 了 Javascript 的 线性 回归 库 shaman， 在 自己 的 物 联网 Node.js 工 程 的 根 目录 下 执行 命令 来 导入 shaman 包 : 


$ npm install --save shaman 


shaman 库 的 使 用 十 分 简单 ， 代 码 如 下 : 


Var LinearRegression = require('shaman') .LinearRegression; 
// 获 取 shaman 中 的 线性 回归 模块 
var lr = new LinearRegression(x, y, {algorithm: 'GradientDescent', learningRate: 0.1, numberOfIterations: 5000}); 
// 创建 线性 规划 ， TRS LR "E SHR HH SR, TRER TE SSD BEAT 77562. FRRO., SER BON SO00K, KEJ, NHS rE 
lr.trai function (err) 
// 启 动 学 习 过 程 ERTER 
if (err) F 
console.log ('error', err); 
process.exit (2); 


T 
var y2 = U: 
x.forEach (function (xi) { 

y2.push (lr.predict (xi) ) 
// 使 用 学 习 好 的 线性 规划 参数 对 数据 进行 预测 ， 这 里 将 x 再 次 作为 输入 ， 获 得 线性 规划 预测 结果 Y2， 也 // 就 是 图 5-3 中 的 直线 
T: 


掌握 了 在 Javascript 中 如 何 使 用 线性 规划 来 做 数据 预测 ， 接 下 来 我 们 来 看 看 线性 规划 核心 代码 的 实现 。 线 性 规划 梯度 下 降 算法 的 核心 代码 如 下 : 


var sylvester = require('sylvester'), // 使 用 sylvester 线 性 代数 库 
Matrix = sylvester.Matrix, 
Vector = sylvester.Vector, 
_ = require('underscore'); // 使 用 JavaScript underscore 通 用 库 ， 包 括 map、reduce、//flatten 
LinearRegression.prototype.gradientDescent = function(X, Y, theta, learningRate, numberOfIterations) 
// 梯 度 下 降 算 法 ， 由 于 是 通用 的 多 元 线性 回归 ， 输 入 训练 集 x 与 Y 是 向 量 形式 ， EIO TS 年 运 算 ， 学 习 速率 与 天 代 次 数 和 前 面 调用 线性 回归 的 例子 一 致 ， 多 出 来 的 参数 theta 是 线性 回归 的 回 // 归 参数 
var m = Y.dimensions () . rows; 
// 获 得 训练 数据 的 数量 
var nbrOfFeatures = X.dimensions () .cols7 
// 获 得 线性 回归 的 数据 维度 
var normalizedX = this.normalize (X); 
// 将 X 数 据 进行 归 一 化 处 理 ， 方 便 后 面 的 计算 
for (var i = 0; i < numberOfIterations; i++) { 
/ BEAT BIE T BEEK 
var xThetaMinusY = (normalizedX.x (theta) ) .subtract (Y); 
// Y - theta * X， 也 就 是 初始 的 预测 误差 
var tempArray = (17 
for (var j = 1; j <= nbrOfFeatures; j++) { 
// 为 每 一 TERTRE F TESIS: 
var xThetaMinusYTimesXj = xThetaMinusY.transpose () .x (normalizedX.column (j) ); 
// 在 j 次 迭代 时 的 预测 误差 
var arrayToSum = _.flatten (xThetaMinusYTimesXj .elements); 
var sum = _.reduce(arrayToSum, function(memo, num) { return memo + num; }, 0); // 将 误差 进行 求 和 
var temp = theta.e(j,1) - (learningRate / m) * sum; 
7H PRE FF Eh TS 数 theta 的 一 个 维度 ， 误 差 和 sum/m 就 是 等 高 线 的 梯度 方向 
tempArray .push ( [temp] ) 


} 
theta = $M(tempArray) ; 
if (this.saveCosts) { 
this.costs.push (LinearRegression.computeCost (normalizedXxX, Y, theta)); 


// 计 算 代价 函数 并 保存 起 来 
} 


if (this.debug) { 
console.log('Iteration: ', i ,' -> Cost:', LinearRegression.computeCost (normalizedX, Y, theta)); 
} 


return theta; 


如 果 读者 仍然 不 能 理解 线性 回归 的 梯度 下 降 算法 ， 那 么 读者 可 以 使 用 Visual Studio Code 来 单 步 调试 上 面 的 例子 ， 观 察 每 一 次 迭代 的 梯度 的 计算 过 程 可 以 进一步 加 深 理 解 。 进 一 步 的 ， 读 者 可 以 尝试 可 
然后 再 改 成 2 运行 生成 回归 模型 ， 以 此 类 推 。 限 于 篇 幅 请 读者 自己 运行 ， 这 里 就 不 再 


视 化 梯度 下 降 每 一 步 得 到 的 线性 回归 模型 ， 方 法 是 将 前 面 例子 中 迭代 的 步 数 从 5000 步 一 次 改 成 1 运行 程序 获得 回归 模型 ， 


给 出 结果 。 


3. 逻 辑 回归 


深入 理解 、 分 析 了 线性 回归 的 JavaScript 实 现 后 ， 接 下 来 我 们 从 连续 值 的 监督 学 习 问题 转移 到 离散 值 的 监督 学 习 问 题 。 解 决 这 一 监督 


regression) 。 也 称 为 逻辑 模型 (logic model， 也 译作 “评定 模型 ” “分 类 评定 模型 ”) ， 是 离散 选择 法 模型 之 一 ， 属 于 多 重 3 
场 营销 等 统计 实证 分 析 的 常用 方法 。 既 然 它 的 名 字 中 有 “回归 ”二 字 ， 那 么 可 以 想象 逻辑 回归 与 线性 回归 有 着 内 在 的 联系 ， 逻 辑 回归 采 


础 上 ， 对 回归 的 结果 使 用 了 逻辑 函数 进行 归 一 化 ， 使 得 回归 的 结果 是 一 个 0 ~ 1 区 间 的 概率 值 ， 逻 辑 归 一 化 函数 如 图 5-4 所 示 [9]。 
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图 5-4 ”逻辑 归 一 化 函数 


变量 分 析 


om, Sta, Singits. 


问题 的 最 简单 学 习 模 型 是 逻辑 回归 (logistic regressionsklogic 
临床 、 数 量 心理 学 、 计 量 经 济 学 、 市 


接 下 来 我 们 通过 JavaScript 代 码 来 学 习 如 何 使 用 逻辑 回归 ， 这 里 我 们 使 用 JavaScript 的 机 器 学 习 库 machine_learning， 在 自己 的 物 联 网 Nodejs 工 程 的 根 目录 下 执行 命令 来 导入 machine_learning 包 : 


DH 


与 线性 回归 几乎 相同 的 算法 ， 所 不 同 的 是 逻辑 回归 在 线性 回归 的 基 


$ npm install --save machine_learning 


对 应 的 Javascript 代 码 非常 简单 ， 这 里 我 们 以 物 联 网 节点 的 可 靠 性 估计 作为 例子 来 学 习 逻 辑 回归 的 应 


var ml = require('machine learning'); 

Var x = E S [0.75]， [1.0]; [1.25], [1.5], [1.75], [2.0], [2.25], [2.5], [2.75], [3.0]; [3.25], [3.25], [3.5], 
TAE Vee. 7[0, 1], [0, 1], [0, u, [0,1], [1,0]; [0,1], [1,0], [0,1], fel „0l, [0,1]; [1,0], [0,1], [1,0], [1, 
ites MCR RET AH, 0. 5400.5, yi RSI MIE, [0 1] 代 表 正 常 ，[1,0] 

// 代 表 故 障 。 从 数据 可 以 看 到 ， 时 间 越 长 ， 故 障 率 可 能 越 高 


var classifier = new ml.LogisticRegression ({ 


‘anput" 5 3; 
'label' Y, 
Ta. jnt dy 


2 
D; ENAA y 以 及 它们 的 维度 
classifier.set('log level',1); 
var training epochs = 800, lr = 0.01; //€ RSS. FAYMFO.01, 800K 
classifier.train ({ 


Wet ose, 

"epochs' : training_epochs 
D: // 训 练 数据 
x = [[0.7],[4.4]]; 


console.log ("Result : ",classifier.predict (x)); // 做 出 预测 


(4. 


ol, 


01, [1,0], 


[4.25], [4.5], [4.75], [5.0] 


[1,0], 


(1, 


7 [5.51]; 
01, [1,0], [1,01] 


程序 的 运行 结果 如 下 : 


Result : [ [ 0.27155856143118995, 0.72844143856881 ], 
[ 0.8495432991273529, 0.1504567008726471 ] ] 


逻辑 回归 的 结果 预测 : 当 系 统 运行 了 0.7 万 小 时 后 ， 物 联网 节点 的 故障 概率 为 0.27; 当 系 统 运行 了 4.4 万 小 时 后 ， 物 联网 节点 的 故障 概率 为 0.85。 


4. 交 叉 验证 


新 的 数据 缺乏 预测 能 力 ， 


监督 学 习 的 过 程 存在 对 学 习 数 据 的 拟 合 程度 与 对 未 来 数据 的 预报 能 力 的 权衡 ， 当 通过 监督 训练 使 得 模型 系统 能 够 精确 
为 过 拟 合 使 得 模型 将 训练 集中 的 噪声 也 学 习 去 了 。 而 如 果 模型 学 习 的 数据 太 少 ， 则 模型 将 无 法 


督学 习 中 通常 的 做 法 是 进行 交叉 验证 ["。 


交叉 验证 ， 有 时 亦 称 循环 估计 ， 是 一 种 统计 学 上 将 数据 样本 切割 成 较 小 子 集 的 实 


集 ， 而 其 他 子 集 则 称 为 验证 集 或 测试 集 。 


方法 。 可 以 先 在 一 个 子 集 上 做 监督 学 习 ， 而 其 他 子 集 则 


反映 所 学 习 数 据 中 的 


规律 。 


交叉 验证 的 目标 是 通过 数据 集 分 配 到 模型 训练 的 两 个 不 同 阶段 训练 与 验证 ， 以 便 减 少 过 拟 合 的 问题 ， 保 证 所 训练 模型 对 新 数 拉 


匹配 训练 数据 的 时 候 ， 常 常 模型 的 拟 合 程度 就 太 高 了 ， 这 样 的 过 拟 合 会 造成 系统 对 
需要 有 一 种 方法 来 验证 模型 的 训练 是 否 合适 。 在 监 


来 做 后 续 对 此 分 析 的 确认 及 验证 。 一 开始 的 子 集 称 为 训练 
届 的 预测 能 力 。 


5.1.2 ”强化 学 习 

在 前 面 研究 的 监督 学 习 中 ， 我 们 看 到 训练 数据 中 有 作为 训练 输入 的 X 及 作为 输出 标签 样本 的 Y， 我 们 通过 使 用 梯度 下 降 算 法 让 我 们 的 学 习 模型 在 输入 为 X 时 输出 能 够 逐步 逼近 Y， 因 此 在 监督 学 习 中 作为 标 
签 样本 的 Y 是 十 分 重要 的 。 然 而 ， 在 实际 应 用 中 特别 是 在 物 联网 大 数据 系统 中 ， 获 得 监督 学 习 所 需要 的 大 量 标签 样本 Y 非 常 困难 上 且 成 本 高 晶 ， 这 在 某 种 程度 上 限制 了 监督 学 习 的 使 用 。 为 了 克服 监督 学 习 的 缺 
陷 ， 我 们 使 用 不 需要 标签 样本 Y 的 非 监督 学 习 方法 ， 在 这 类 非 监督 学 习 中 占有 重要 地 位 的 是 强化 学 习 四 。 


的 预期 ， 产 生 能 获得 最 大 利益 的 习惯 性 行为 。 这 个 方法 具有 普 适 性 ， 
运筹 学 和 控制 理论 研究 的 语 境 下 ， 强 化 学 习 被 称 作 “ 近 似 动态 
并 非 是 学 习 或 者 近似 方面 。 在 经 济 学 和 博弈 论 中 ， 强 化 学 习 被 


强化 学 习 是 机 器 学 习 中 的 一 个 领域 ， 强 调 如 何 基于 环境 而 行动 ， 以 取得 最 大 化 的 预期 利益 。 其 灵感 来 源 于 心理 学 中 的 行为 


在 机 器 学 习 问 题 中 ， 环 境 通常 被 规范 为 马尔 可 夫 决 策 过 程 (Markov Decision Process, M 


Lx" 


因此 在 其 他 许多 领域 都 有 


(Approximate Dynamic 


A 


AY, TEKS 


是 对 环境 的 


的 


者 不 需 


关于 马尔 可 夫 决 策 过 程 的 知识 ， 而 且 针 对 无 法 找到 


强化 学 习 和 标准 的 监督 学 习 之 间 的 
和 遵从 ( 现 有 知识 ) 之 间 找到 平衡 。 强 化 学 习 的 基本 框 


State X. 


图 


比较 


5-1 与 


5-5， 能 够 进一步 明确 监督 学 习 与 强化 学 习 的 


区 别 在 于 : 强化 学 习 并 不 需 
如 图 5-5 所 示 。 


来 解释 在 有 限 理性 的 条 件 下 如 何 


出 现 正确 的 输入 / 输 t 


达到 平衡 。 


DP) ， 所 以 许多 强化 学 习 算法 在 这 种 情况 下 使 
确切 方法 的 大 规模 马尔 可 夫 决 策 过 程 也 适用 。 


义理 论 ， 即 有 机 体 如 何在 环境 给 予 的 奖励 或 惩罚 的 
究 ， 如 博弈 论 、 控 制 论 、 运 筹 学 、 信 息 论 、 仿 真 优化 、 多 3 
Programming, ADP) 。 最 优 控制 理论 也 有 研究 这 个 问题 ， 


体系 统 学 习 、 群 体 智能 、 
虽然 大 部 分 的 研究 是 关于 最 优 解 的 存在 和 特性 ， 


刺激 下 ， 逐 步 形成 对 刺激 


统计 学 及 遗传 算法 。 在 


动态 规划 技巧 。 传 统 的 技术 和 强化 学 习 算法 的 主要 区 别 是 ， 


代理 


Reward r, 


可 控 性 。 


在 增强 学 习 中 ， 最 为 著名 的 是 Q 学 习 (Q-learning) Pl; 在 机 器 学 习 


过 程 中 ， 我 们 只 能 控制 学 习 模型 对 环境 的 状态 及 环境 给 的 奖励 做 出 


对， 也 不 需要 精确 校正 次 优化 的 行为 ， 如 梯度 下 降 。 强 化 学 习 更 加 专注 于 在 线 规划 ， 需 要 在 探索 (在 未 知 的 领域 ) 


Action d. 


环境 


图 5-5 增强 学 习 的 基本 杠 


区 别 ， 在 监督 学 习 中 ， 所 有 的 东西 都 是 受 控 的 ， 模 型 
自己 的 反应 ， 而 不 能 控制 环境 在 给 定 的 


强化 学 习 技术 。 具 体 来 阅 ， 可 以 使 


Q 学 习 来 为 任何 给 定 的 有 限 的 马尔 


中 ， 


有 里 程 碑 意义 的 AlphaGo 也 使 
可 夫 决 策 过 程 找到 最 佳 的 动作 选择 策略 。 它 通过 学 习 一 个 动作 效 


学 习 的 数据 X 与 Y 都 是 确定 的 。 而 在 增强 学 习 中 ， 环 境 是 不 可 控 甚 至 有 可 能 是 不 知道 


输入 动作 下 能 够 给 出 确定 的 状态 及 确定 的 奖励 ， 


Q 学 习 来 增强 


遵循 最 优 策 略 。 策 略 是 代理 在 选择 动作 后 遵循 的 规则 。 当 这 样 的 动作 值 函 


， 而 不 需要 环境 模型 。 此 外 ，Q 学 习 


可 以 处 理 随 机 和 过 渡 奖 励 的 问题 ， 


开始 的 所 有 连续 步骤 中 返回 的 值 是 可 实现 的 最 大 值 [19]。 


2.Flappy Bird Q 学 习 


学 习 一 项 技术 最 好 的 方法 就 是 先 找到 一 个 例子 ， 然 后 通过 有 


因此 增强 学 习 与 监督 学 习 的 重 


区 别 就 


SS 


围棋 水 平 以 实现 对 人 类 冠军 棋 手 的 超越 。Q 学 习 是 一 种 无 模型 或 者 自由 模式 
值 函 数 Q， 最 终 给 出 在 给 定 状态 下 采取 给 定 动作 | 


的 预期 效用 ， 然 后 


数 被 学 习 时 ， 可 以 通过 简单 地 选择 每 个 状态 中 具有 最 高 值 的 动作 来 构建 最 优 策略 。Q 学 习 的 优点 之 一 是 能 够 比较 可 | 


而 不 需要 任何 适应 。 已 经 证 明 ， 对 了 


究 其 源 代码 来 学 习 。 为 很 好 地 理解 与 掌握 名 


玩 Flappy Bird 这 个 游戏 。 完 整 的 程序 代码 可 以 参见 https://github.com/Enhuiz/flappybird-ql。 


飞 ， 另 一 个 是 什么 也 不 做 而 沿 着 抛物 线 


读者 也 可 以 在 网 页 上 试 玩 游戏 及 体验 Q 学 习 的 过 程 。 整 个 游戏 及 机 器 学 习 的 代码 都 使 
自然 下 坠 。 小 鸟 碰 到 地 面 或 者 碰 到 水 管 都 判定 为 死亡 。 


图 


5-6 所 示 是 F| 


要 的 强化 学 习 技术 一 一 Q 学 习 ， 我 们 以 一 个 例子 来 


操作 的 预期 效 


任何 有 限 的 马尔 可 夫 决 策 过 程 ，Q 学 习 最 终 找到 一 个 最 优 策略 ， 在 总 体 奖励 的 期 望 值 从 当前 状态 


展示 如 何 使 


appy Bird 游 戏 的 界面 。 


Q 学 习 技术 来 让 计算 机 自动 学 会 


JavaScript 实 现 ， 整 个 游戏 的 内 容 非 常 简单 ， 需 要 操纵 小 鸟 飞 过 水 管 障碍 ， 小 鸟 可 以 做 的 动作 有 两 个 : 一 个 是 向 上 


为 了 用 程序 来 描述 与 处 理 Flappy Bird 游 戏 ， 我 们 需要 对 游戏 进行 建 模 ， 根 据 图 5-6 并 参照 图 5-5， 我 们 定义 小 鸟 到 下 一 根 水 管 的 距离 差 (dx, dy) 为 强化 学 习 的 状态 S， 其 中 dx 为 水 平 距离 ，dy 为 垂直 距 
离 。 相 应 的 强化 学 习 的 行动 A 定义 为 飞 与 不 飞 。 而 游戏 作为 强化 学 习 环 境 给 予 的 奖励 定义 如 下 : 


IR] 


) 小 鸟 活着 时 ， 每 一 帧 给 予 1 的 奖赏 ; 


2) 若 小 鸟 死亡 ， 则 给 予 -100 的 奖赏 ; 


3) 若 小 鸟 成 功 经 过 一 个 水 管 ， 则 给 予 50 的 奖赏 。 


至 此 我 们 对 强化 学 习 中 的 三 个 重 
尔 可 夫 决 策 过 程 可 以 描述 为 一 个 飞 与 不 飞 的 连 


状态 (dx，dy) 


变量 进行 


图 5-6 


车 续 决策 过 程 。 而 动作 效 


表 5-1 


Flappy Bird 游 戏 的 界面 


了 清晰 的 定义 。 有 了 这 些 定义 ， 我 们 就 构建 出 了 游戏 的 增强 学 习 模型 ， 接 着 的 工作 就 是 


Q 学 习 来 解决 这 个 增强 学 习 模型 。 
函数 Q， 则 可 以 定义 为 一 张 输入 为 模型 当前 状态 及 模型 当前 动作 、 输 出 为 效 


小 鸟 马 尔 可 夫 决 策 Q 值 函数 表 


首先 ， 根 据 我 们 建立 的 模型 ， 马 
Q 值 的 表格 ， 如 表 5-1 所 示 。 


(5, -4) | 0 | 1 fe nee 
(12, 0) 1 
这 张 表格 的 行 数 是 小 鸟 所 有 可 能 的 状态 ， 因 此 Q 值 函数 其 实 就 是 当前 状态 与 在 当前 状态 上 采取 动作 与 不 采取 动作 的 效用 的 估计 。 因 此 增强 学 习 的 模型 越 复 杂 ， 则 响应 的 Q 值 函数 表 越 大 。 在 决策 过 程 中 ， 


算法 会 根据 游戏 当前 的 状态 并 比较 飞 与 不 飞 的 效 


接 下 来 我 们 通过 


奖励 对 学 习 模型 进行 更 新 的 函数 。 


var 
var 
var 
var 
var 
var 


qlAlpha = 
qlGamma = 
qlAliveReward = 1; 
qlDeadReward = -100; 
qlEpsilon = 0; 
qlExploreJumpRate = 0.1; 


0.6; 
0.8; 


// Q 学 习 的 参数 


function reward (Q, 


S, S, A, R) { 


// 计 算 效用 函数 值 表 @ 


if 


(S && S KK Ain [0, 1] 


E && SinQ KK S in Q) 
QIS] [A] = (1 - qlAlpha) 


* Q[S] [A] + qlAlpha * 


// 这 个 就 是 Q- jearning 的 训练 


return 7 


} 


function updateQL(gameState) { 


if (!updateQL.enabled) return gameState; 
if (updateQL.skip) { // 小 鸟 死亡 重启 Q 学 习 
updateQL.A = null; 
updateQL.S = null; 
T 
if (!updateQL.Q) { // 初 始 化 学 习 
updateQL.Q = {}; 
updateQL.S = null; 
T 
var Q = updateQh.Q; // 游 戏 上 一 回合 效用 函数 值 表 Q 
// prev state 
var S = updateQL.s; // 游 戏 上 合 状态 S 
// prev action 
var A = updateQL.A; // 游 戏 上 一 回合 动作 A 


// current state 


var S 


i£ 


// 当 前 3 Eda mnie 


if 


} else if (gameState.mode == "dead") { 


= getQLstate ears cit 7 
(S && !(S_ in Q)) = 


// 获 取 游 戏 的 当前 状态 


Ol; 
-个 新 的 对 应 当前 
(gameState.mode == "playing") { // 小 鸟 仍然 活 
updateQL.Q = reward(Q, S, S a A, qlAliveReward) ; 
updateQL.S = S ; 7/ 更 新 CASS 
// 当前 动作 ，0 表 示 不 飞 ，1 表 示 飞 
var A_=0; 
if (Math.random() < qlEpsilon) { 

A_ = Math.random() < qlExploreJumpRate ? 1 : 0; 
} else if (S_ in Q) { // exploit 


A_=Q[S_][0] >= Q(S_]{1] ? 0 : 1; 


if (A_ == 1) gameState = jump (gameState); 
updateQL.A = A; // 更 新 决策 动作 


updateQL.Q = reward(Q, S, S_, A, qlDeadReward) ; 


究 与 分 析 其 核心 代码 来 掌握 Q 值 函数 表 更 新 这 个 Q 学 习 的 核心 。 


， 选 择 值 较 大 的 作为 当前 状态 的 决策 。 而 Q 学 习 的 任务 就 是 通 


以 下 是 基 了 


(R + qlGamma * max(Q[S_])); 
// 在 9 中 更 新 Q(S,A) 一 (1-0) *Q(S,A) + on [R + yrmaxQ (S',a)] 
公式 了 。 其 中 o 为 学 习 速 率 (learning rate) 


，Y 为 折扣 因子 // 


// 不 启动 Q 学 习 ， 直 接 返 回 游戏 状态 


// 更 新 Q 值 函数 表 


// 随 机 进行 不 按 @ 值 决策 的 探索 


// 随 机 动作 


// 根 据 Q 值 函数 表 做 出 决策 
// 发 送 飞 的 指令 ， 


// 小 鸟 死亡 
// 更 新 Q 值 函数 表 


(discount factor) 。 


根据 2 


Javascript 的 Q 学 习 的 核心 代码 ， 代 码 有 两 个 关键 函数 ， 一 个 是 计算 环境 给 予 奖励 Q 的 函数 ， 


公式 可 以 看 出 ， 


过 不 断 修 正 Q 值 函数 表 中 的 项 来 寻找 最 优 策略 所 对 应 的 Q 值 函数 表 。 


一 个 是 基于 


学 习 速 率 o 越 大 ， 保 留 之 前 训练 的 效果 就 越 少 。 折 // 扣 因子 Y 越 大 ，max 


updateQL.S = null; 
updateQL.A = null; 

// 重新 开始 游戏 
updateQL.skip = false; 
gameState = jump (gameState) ; 


return gameState; 


T 


通过 长 时 间 的 迭代 学 习 ，Q 值 函数 表 就 会 收敛 到 最 优 值 ， 小 鸟 就 能 够 一 次 又 一 次 通过 水 管 获得 很 高 的 分 数 。 如 果 读 者 亲自 到 网 页 上 体验 Q 学 习 的 整个 过 程 就 会 发 现 ，Q 学 习 的 收敛 速度 其 实 非常 慢 ， 这 也 
是 所 有 增强 学 习 共有 的 问题 ， 由 于 对 环境 的 不 可 控 ， 增 强 学 习 智 能 一 步 一 步 慢 慢 探索 环境 ， 而 不 能 像 监 督学 习 那 样 直接 找到 梯度 这 个 最 优 方向 。 所 以 通常 来 说 ， 监 督学 习 与 增强 学 习 需 要 配合 在 一 起 使 
， 先 采用 监督 学 习 快 速 获 得 一 个 模型 ， 然 后 利用 增强 学 习 去 强化 和 探索 在 监督 学 习 中 没有 覆盖 的 情况 。 在 5.2 节 中 我 们 将 要 提 到 的 AlphaGo 正 是 结合 了 监督 学 习 与 增强 学 习 完成 了 战胜 人 类 冠军 的 任务 。 到 
这 里 ,我 们 已 经 完成 了 机 器 学 习 中 监督 学 习 与 增强 学 习 的 部 分 ， 并 且 在 监督 学 习 中 ， 我们 给 出 了 最 简单 的 线性 回归 与 逻辑 回归 的 例子 ， 而 在 增强 学 习 中 ,我们 给 出 了 Q 学 习 的 例子 ， 虽 然 在 物 联网 数据 分 析 
中 ， 这 些 算法 的 结果 已 经 有 一 定 的 实用 价值 ， 但 是 这 些 算法 仍然 太 过 简单 无 法 学 习 与 表示 物理 世界 纷繁 复杂 的 关系 与 逻辑 ， 我 们 需要 进一步 学 习 更 复杂 的 能 够 学 习 复 杂 关 系 的 学 习 模 型 ， 接 下 来 我 们 就 来 研 
究 现在 最 为 热门 、 表 示 能 力 与 学 习 能 力 最 强 的 深度 学 习 技术 。 


1] 引用 https://zh.wikipedia.org/wiki/ 人 工 智 能 。 

2] 拓展 阅读 https://zh.wikipedia.org/wiki/ 达 特 芒 斯 会 议 。 
https://zh.wikipedia.org/wiki/ 监督 式 学 习 。 
https://zh.wikipedia.org/wiki/ 梯 度 下 降 法 。 


用 
用 

5] 引用 https://zh-wikipedia.org/wiki/ 线 性 回归 。 
用 https://zh.wikipedia.org/wiki/ 逻辑 回归 。 
用 


7] 引用 https://zh.wikipedia.org/wiki/ 交叉 验证 。 


8] 引用 https://zh.wikipedia.org/wiki/ 强化 学 习 。 


9] 拓展 阅读 https://en.wikipedia.org/wiki/ Q-learning。 


10] 参考 https://www.zhihu.com/ question/26408259。 


5.4 ”本章 小 结 


在 本 章 中 ， 我 们 首先 学 习 了 作为 物 联 网 数据 分 析 技术 核心 的 人 工 智能 与 机 器 学 习 的 基本 概念 。 这 些 概念 包括 监督 学 习 与 强化 学 习 。 在 监督 学 习 中 ， 我 们 着 重 研究 了 梯度 下 降 学 习 算法 ， 并 给 出 了 使 
Javascript 实 现 的 线性 回归 梯度 下 降 算法 ， 同 时 我 们 也 介绍 了 线性 回归 的 离散 形式 一 一 逻辑 回归 。 在 强化 学 习 中 ， 我 们 以 Flappy Bird 为 实例 详细 研究 了 强化 学 习 的 JavaScript 实 现 。 接 着 ,我 们 从 基本 的 机 
器 学 习 算法 进入 到 深度 学 习 领 域 ， 分 别 介绍 深度 学 习 的 三 个 重要 的 网 络 模型 一 一 多 层 感 知 器 网 络 、 卷 积 神经 网 络 、 递 归 神 经 网 络 。 在 这 一 部 分 ， 我 们 通过 学 习 这 些 网 络 的 Javascript 实 现 并 对 照 理论 模型 ， 
加 深 了 对 深度 学 模型 的 理解 ， 同 时 又 避免 了 使 用 大 量 难于 理解 的 公式 。 有 了 对 深度 学 习 的 理解 ， 我 们 进一步 讨论 了 大 规模 深度 学 习 平台 的 选择 ， 目 前 深度 学 习 平台 仍然 处 于 快速 发 展 过 程 中 ， 对 JavaScript 
的 支持 仍然 十 分 有 限 。 最 后 我 们 通过 几 个 例子 来 学 习 如 何在 物 联 网 数据 分 析 中 使 用 人 工 智能 与 机 器 学 习 技 术 。 


Som ”基于 JavaScript 物 联网 数据 展示 与 交互 


讨论 完了 物 联网 数据 的 分 析 ， 接 下 来 我 们 研究 如 何 将 物 联网 大 数据 系统 存储 的 数据 及 物 联网 数据 分 析 的 结果 进行 展示 与 互动 。 作 为 物 联网 的 数据 展示 与 互动 系统 ， 其 所 服务 的 对 象 是 物 联网 的 管理 者 以 
及 用 户 。 用 户 和 管理 者 与 物 联网 系统 进行 沟通 的 最 有 效 的 方式 就 是 使 用 图 形 化 的 界面 。 因 此 对 于 物 联网 的 用 户 端 来 讲 ， 如 何 设计 一 个 良好 的 用 户 界面 ， 方 便 数 据 的 展示 与 互动 ， 实 现 物 联网 数据 与 用 户 间 的 
流动 是 极其 重要 的 ， 毕 竟 完 成 了 物 联网 数据 收集 、 数 据 处 理 、 数 据 存 储 以 及 数据 分 析 后 ， 如 果 不 能 将 有 用 的 数据 展示 给 用 户 ， 数 据 的 价值 就 会 大 打折 扣 。 


6.3 lonic 移 动 应 用 开发 


现在 物 联 网 不 可 避免 地 与 移动 互联 网 紧密 地 联系 在 了 一 起 ， 物 联网 与 移动 互联 网 相互 渗透 ， 可 谓 “ 你 中 有 我 ， 我 中 有 你 ”。 因 此 在 进行 物 联网 数据 的 展示 与 交互 时 ， 除 了 网 页 应 用 以 外 ， 我 们 也 希望 对 
应 自己 的 物 联网 有 相应 的 移动 上 应用。 但是， 移动 应 用 的 开发 并 不 是 那么 容易 而 且 成 本 高 晶 。 由 于 移动 手机 市 场 被 几 大 巨头 占据 ， 其 中 包括 了 市 场 占有 率 最 高 的 苹果 iOS 和 谷歌 Android， 而 这 两 个 市 场 的 主导 
者 在 移动 应 用 开发 的 技术 栈 选择 上 完全 不 同 。 苹 果 iOS 以 Object-C 及 Swifit 为 主要 开发 语言 ， 谷 歌 Android 以 Java 及 Kotlin 为 应 用 开发 的 主要 语言 ， 而 物 联网 应 用 在 开发 中 有 需要 支持 主流 的 移动 平台 ， 这 就 
造成 了 如 果 要 开发 物 联网 的 移动 应 用 ， 那 么 就 需要 同时 掌握 iOS 与 Android 的 主流 开发 环境 与 语言 ， 这 给 已 经 需要 掌握 大 量 不 同 技 术 与 开发 语言 的 物 联网 软件 工程 师 增加 了 沉重 的 负担 ,无形 中 也 增加 了 物 联 
应 用 的 维护 成 本 。 因 此 ， 对 于 物 联网 工程 师 来 说 ， 人 迫切 需要 有 一 种 统一 的 语言 来 开发 物 联网 应 用 ， 不 仅仅 统一 iOS 与 Android 的 开发 ， 而 且 能 够 统一 网 页 端 与 移动 端的 开发 。 


mn 


幸运 的 是 lonicl 移动 开发 框架 满足 了 我 们 以 上 这 些 需求 。lonic 是 基于 HTML5 技 术 完 全 使 用 JavaScript 的 手机 应 用 开发 框架 ， 其 是 目前 较 有 潜力 的 一 款 HTML5 手 机 混合 应 用 开发 框架 。 通 过 SASS 构 建 应 
程序 ， 它 提供 了 很 多 UlI 组 件 来 帮助 开发 者 开发 强大 的 应 用 。 它 使 用 Angularjs 来 增强 应 用 ， 提 供 数据 的 双向 绑 定 ， 成 为 Web 和 移动 开发 者 的 共同 选择 。lonic 是 一 个 专注 于 用 Web 开 发 技术 ， 基 于 HTML5 
创建 类 似 于 手机 平台 原生 应 用 的 一 个 开发 框架 。lonic 框 架 的 目的 是 从 Web 的 角度 开发 手机 应 用 ， 基 于 Cordova 的 编译 平台 ， 可 以 实现 编译 成 各 个 平台 的 应 用 程序 。 有 了 lonic， 物 联网 工程 师 就 能 够 使 
HTML5 与 Angularjs 技 术 无 颖 地 从 网 页 开发 迁移 到 移动 开发 上 。 


6.3.1 Cordova 


Cordova 是 Adobe 贡 献 给 Apache 后 的 开源 项 目 ， 是 从 其 前 身 PhoneGap 中 抽出 的 核心 代码 ， 是 驱动 PhoneGap 的 核心 3 引 警 。Cordova 提 供 了 一 组 设备 相关 的 AP1， 通 过 这 组 AP1， 移 动 应 用 能 够 以 
JavasScript 访 问 原生 的 设备 功能 ， 如 摄像 头 、 麦 克 风 等 。Cordova 还 提供 了 一 组 统一 的 Javascript 类 库 ， 以 及 为 这 些 类 库 所 用 的 设备 相关 的 原生 后 台 代 码 。Cordova 支 持 如 下 移动 操作 系统 : iOS, 
Android, Ubuntu Phone OS, Blackberry, Windows Phone, Palm WebOS、Bada 和 Symbian， 几 乎 包括 了 市 面 上 能 够 找到 的 所 有 移动 端 系统 。 有 了 它 ， 物 联网 程序 员 只 需要 使 用 JavaScript 开 发 物 联 
应 用 程序 ， 就 能 够 利用 Cordova 将 开发 的 物 联 网 应 用 编译 成 对 应 不 同 移动 平台 的 移动 应 用 站。 在 物 联 网 应 用 中 ， 获 得 当前 用 户 的 地 理 位 置 是 非常 有 用 的 ， 下 面 我 们 以 GPS 操作 为 例 学 习 Cordova 的 使 
B]; 


function getPosition() { 
var options = { 
enableHighAccuracy: true, 
maximumAge: 3600000 
} 
var watchID = navigator.geolocation.getCurrentPosition(onSuccess, onError, options); // 调 用 Cordova 访 问 手机 上 的 GPS 数 据 
function onSuccess (position) { 
alert ('Latitude: ' + position.coords.latitude + '\n' + 


longitude 
altit 
n'); 


age + '\n'); 


Cordova 运 行 效果 如 图 6-20 所 示 。 


利用 Cordova， 我 们 可 以 使 用 JavaScript 访 问 手机 的 相机 、 联 系 人 、 加 速度 计 、GPS 等 各 种 硬件 设备 ， 调 用 十 分 简单 。 而 lonic 在 底层 上 完全 基于 Cordova， 因 此 物 联网 工程 师 可 以 直接 在 lonic 应 用 中 调 
用 这 些 JavaScript 接 口 访问 相应 的 手机 设备 。 


Alert 


Latitude: 65.9667 

Longitude: -18.5333 

Altitude: 15.044444 
Accuracy: 1 

Altitude Accuracy: null 
Heading: 0 

Speed: 0 

Timestamp: 1449238286000 


图 6-20 ”Cordova 运 行 效果 


6.3.2 ”UI 组 件 


lonic 除 了 使 用 Cordova 为 我 们 提供 调用 手机 硬件 的 能 力 之 外 ， 还 使 用 SASS 为 我 们 提供 了 漂亮 的 用 于 构建 移动 应 用 程序 的 UI 组 件 ， 这 些 组 件 做 到 了 几乎 能 够 提供 与 原生 组 件 一 样 的 外 观 与 功能 。 利 用 这 


些 UI 组 件 ， 物 联网 开发 者 就 能 够 快速 开发 出 与 原生 应 用 非常 接近 的 物 联网 移动 应 用 。lonic 利 用 Angularjs 能 够 自 定义 指令 的 功能 ,扩展 HTML 以 提供 对 移动 开发 所 需要 的 UI 组 件 支 持 ， 所 有 的 lonic 扩 


都 以 ion 开 头 ， 比 如 作为 单 选 框 的 <ion-radio>、 作 为 复 选 框 的 <ion-checkbox> 以 及 作为 滚动 条 的 <ion-scroll> 。 接 下 来 我 们 就 以 模 态 窗 
Angularjs 的 一 些 指令 : 


展 指令 


为 例 学 习 一 下 lonic UI 组 件 的 基本 使 用 方法 ， 同 时 复习 一 下 


<html ng-app="iionicApp"> 
<head> 
<meta charset="utf-8"> 
<meta name="viewport" content="initial-scale=1, maximum-scale=1, user-scalable=no, width=device-width"> 
<title> 菜 鸟 教程 (runoob.com) </title> 
<link href="https://cdn.bootcss.com/ionic/1.3.2/css/ionic.css" rel="stylesheet"> 
<script src="https://cdn.bootcss.com/ionic/1.3.2/js/ionic.bundle.min.js"></script> 
<style> 
body { 
cursor: url('http://ionicframework.com/img/finger.png'), auto; 


T 
</style> 
<script> 
angular.module('ionicApp', ['ionic']) 
.controller('AppCtrl', function($scope, $ionicModal) { 
// 创 建 网 页 视图 的 控制 器 
$scope.contacts = [ // 初 始 化 
{ name: 'Gordon Freeman' }, 
{ name: 'Barney Calhoun' }, 
{ name: 'Lamarr the Headcrab' }, 
di 
SionicModal.fromTemplateUrl ('templates/modal.html', { 
scope: $scope // 创 建 ionic 模 态 框 
}) .then (function (modal) { 
$scope.modal = modal; 
We 


$scope.createContact = function(u) { // 相 应 添加 列表 项 事件 
$scope.contacts.push({ name: u.firstName + ' ' + u.lastName }); 
Sscope.modal .hide () ; // 隐 藏 模 态 框 
T: 
We 
</script> 


</head> 
<body ng-controller="AppCtr1"> <!- 声 明 视图 控制 器 > 
<ion-header-bar class="bar-positive"> <!- 使 用 ionic 头条 UI 组 件 > 
<hl class="title">Contacts</h1> 
<div class="buttons"> 


<button class="button button-icon ion-compose" ng-click="modal.show()"> <!- 为 按钮 绑 定 anguar.js 事 件 ， 显 示 模 态 框 > 


</button> 
</div> 
</ion-header-bar> 
<ion-content> 
<ion-list> <!- 使 用 ionic 列表 UI 组 件 > 
<ion-item ng-repeat="contact in contacts"> 


<!- 利 用 Anguar.js 重 复 指 令 进行 数据 展开 ，contacts 中 的 每 一 个 元 素 都 会 生成 一 段 相同 的 HTML， 这 里 显示 一 个 contacts 中 没 一 个 元 素 组 成 的 列表 > 


{{contact.name}} 
</ion-item> 
</ion-list> 
</ion-content> 
id="templates/modal.html" type="text/ng-template"> 
I 模板 > 
<ion-modal-view> <!- 使 用 ?ionic? 模 态 框 UI 组 件 > 
<ion-header-bar class="bar bar-header bar-positive"> 
<hl class="title">New Contact</h1> 
<button class="button button-clear button-primary" ng-click="modal .hide ()">Cancel</button> 
</ion-header-bar> 
<ion-content class="padding"> 
<div class="list"> 
<label class="item item-input"> 
<span class="input-label">First Name</span> 
<input ng-model="newUser.firstName" type="text"> 
</label> 
<label class="item item-input"> 
<span class="input-label">Last Name</span> 
<input ng-model="newUser.lastName" type="text"> 
</label> 
<label class="item item-input"> 
<span class="input—label">Email</span> 
<input ng-model="newUser.email" type="text"> 
</label> 


<button class="button button-full button-positive" ng-click="createContact (newUser) ">Create</button> 


</div> 
</ion-content> 
</ion-modal-view> 
</script> 
</body> 
</html> 


上 面 例子 的 运行 效果 如 图 6-21 所 示 。 


Gordon Freeman 


Barney Calhoun 


Lamarr the Headcrab 


New Contact Cancel 


First Name zhizhou 
Last Name | 


Email lizhizhou1983@qmail.com 


图 6-21 Ionic UI 运 行 效果 


6.3.3 lonic 集 成 开发 环境 


为 了 提高 基于 lonic 的 物 联 网 应 用 开发 以 及 测试 的 效率 ， 我 们 需要 使 用 集成 开发 环境 来 辅助 。lonic 官 方 推荐 使 用 免费 的 微软 Visual Studio Community 作 为 集成 开发 环境 。 在 Visual Studio 


community 中 ， 微 软 集成 了 对 lonic 的 开发 支持 ， 提 供 了 基于 Chrome 浏 览 器 Ripple 插 件 的 手机 应 用 开发 模拟 环境 ， 并 集成 了 Javascript 调 试 器 ， 方 便 开 发 者 调试 自己 的 lonic 应 用 排除 错误 。 同 时 ，Visual 


Studio Community 提 供 了 对 应 用 进行 编译 与 打包 ， 并 直接 运行 在 iOS 与 Android 移 动 设备 上 的 能 


I 


安装 完整 集成 开发 环境 的 步骤 可 以 在 以 下 网 页 找到 : https://taco.visualstudio.com/en-us/docs/tutorial-ionic。 完 成 安装 后 就 可 以 用 Visual Studio Community 来 开发 调试 onic 移 动 应 用 了 ， 这 吓 


们 正在 调试 Android 应 用 并 设置 了 断 点 ， 如 图 6-22 所 示 。 


pd ionic (正在 运行 ) - Microsoft Visual Studio é | 快速 启动 (Ctrl+Q) Plea A X 

文件 昌 MAÐ HEAV AAH ”生成 (8) WAD ”团队 (M) IAD MAO ”分 析 (N) AOW 。 帮助 (H) Zhizhou Li ~ 图 
@- -2 m a 7 x ) S.-N 8 D 6 27% ww aio 

进程 : [1] http://localhost:4400/index. ~ 事件 > EEE T = 

DOM 资源 管理 器 - index.html tab-controllerhtml tab-dashbroad.html index.html chat-detail.html 属性 ~ ax kd 

angular. module(’ starter. controllers’, []) $ Gay # E 

日 . controller( DashBroadCtrl ，function ($scope) { kei 

Sscope. messagelist = [{ title: “Temp”, message: “15.0” }, { title: “Moist”, message: “50%” }] b 

p i g 

7 a L 

Sa 

a 

日 . controller(’ControllerCtrl1’, function ($scope, $timeout, $http) { f 


El. controller(’SettingCtrl’, function(Sscope, $timeout) { 


@ ISscope. volumer = 208 


var timeoutId = null; 


= Sscove. Swatch( volumer’. function () { 


100% ~ 
局 部 变量 ~ 时 X JavaScript 控制 台 vax 
e Sia 
It changed recently! A 
controllers.js (32,21) M 
> x > 从 
自动 窗口 ”局 部 变量 监视 1 JavaScript 控制 台 调用 堆栈 断 点 异常 设置 命令 窗口 即时 窗口 输出 


G MobileApp N master ~ 


A\6-22 Visual Studio Community 集 成 开发 环境 


后 localhost:4400/index.) x 


S C | © localhost:4400/index.html?enableripple=cordova-3.0.0-Nexus7 


Dashboard 


Iy- 


Dashbroad 


当 在 调试 过 程 中 编辑 源 代 码 时 ，Visual Studio Commun 


6.3.4 ” 物 联 网 单 页 应 用 程序 


图 6-23 ”chrome 浏 览 器 Ripple 插 件 手机 模拟 环境 


ity 会 实时 更 新 运行 结果 ， 这 大 大 提高 了 


前 面 我 们 掌握 了 使 用 HTML5 与 Angularjs 开 发 物 联 网 应 

节 的 内 容 。 物 联网 应 用 的 主要 功能 是 远程 控制 物 联网 节点 并 获 

从 https://github.com/OpenFPGAduino/MobileApp 下 载 ， 
页 面 (Setting) ， 如 图 6-24 所 示 。 


Dashboard 


Dashbroad 


的 所 有 必需 知识 ， 以 及 将 Angularjs 扩 展 到 移动 


45 TI 


接 下 来 我 们 逐一 分 析 


中 的 关键 部 分 。 首 先 ， 物 


点 上 传感器 的 数据 。 关 于 物 联网 节点 上 运行 的 代码 ， 我 们 在 第 8 


发 的 lonic 框 架 ， 接 下 来 我 们 以 一 个 简单 


发 的 效率 ， 真 正 做 到 所 改 即 所 得 。 


的 物 联网 移动 应 用 的 例子 作为 综合 实例 来 完成 这 一 章 


详细 研究 ， 这 里 将 重点 集中 在 远程 控制 的 物 联网 应 


联网 应 


包括 三 个 页 


Hl, 


Temp 


21.9 


分 别 是 仪表 板 页 


面 (Dashboard) 、 控 制 器 页 


H 


上 。 完 整 的 开发 可 以 


(Controller) 与 设 


Moist 


80.5 


Temp 


27.5 


Moist 


80.5 


Temp 


27.5 


Controller 


HS 


Controller ettii 


Set Reset 


Cattina 


aa ae Ñ XI T d | 


1 
d (Ae 
V 


Dashbroad 


Hostname 


Udpate Time 


E 


Controller 


192.168.1.2:8080 


Update 


w 


6-24” 物 联 远 程控 制 网 应 用 


在 仪表 板 页 面 上 ， 我 们 会 定时 获取 物 联网 节点 上 传感器 的 温度 与 湿度 。 在 控制 器 页 面 上 ， 我 们 能 够 设置 滑动 条 来 调节 物 联网 节点 上 彩色 LED 灯 的 颜色 。 在 设置 页 面 上 ， 我 们 可 以 设置 目标 物 联 网 节点 的 
地 址 以 及 温 湿度 更 新 的 时 间 。 上 面 的 三 个 页 面 对 应 的 HTML 代 码 如 下 ， 首 先是 仪表 板 页 面 : 


<ion-view view-title="Dashboard"> 
<ion-content class="padding"> 
<div class="list card" ng-repeat="m in messagelist"> 
<!- 使 用 ng-repeat 指 令 遍 历数 组 messagelist， 每 次 有 温 湿度 更 新 时 ， 我 们 会 将 数据 插入 messagelist 数 组 -> 
<div class: tem item-divider">{ {m.title}}</div> 
<!- 显 示 数 组 中 的 元 素 m 的 title 字 段 -> 
<div class="item item-body"> 


<div> 
{{m.message}} <!- 显 示 数 组 中 的 元 素 m 的 message 字 段 -> 
</div> 
</div> 
</div> 


</ion-content> 
</ion-view> 


接 下 来 我 们 来 看 一 下 控制 器 页 面 的 HTML 代 码 : 


<ion-view view-title="Controller"> 
<ion-content class="padding"> 
<div class="list"> 
<div class="item range range-assertive" style="background: #££0000"> 
<!- 使 用 了 ionic 的 滑 块 UI 组 件 -> 
<i class="icon ion-ios-sunny-outline"></i> 
<!- 使 用 了 ionic 的 太阳 小 图 标 
<input type="range" name="volumer" ng-model="$parent.volumer" min="0" max="255" value="100"> 
<!- 定 义 滑 块 的 取 值 范围 ， 并 将 滑 块 的 值 绑 定 到 volumer 上 ， 注 意 这 里 我 们 使 用 了 ion-content 指 令 ， 这 条 指令 生成 了 自己 的 Sscope， 而 我 们 的 控制 代码 绑 定 在 ion-~view 上 ， 因 此 想 要 在 JavaScript 访 | 


<i class="icon ion-ios-sunny"></i> 


</div> 
<div class="item range range-calm" style="background: #0094f£"> 
<i class="icon ion-ios-sunny-outline"></i> 


<input type="range" name="volumeg" ng-model="$parent.volumeg" min="0" max="255" value="100"> 
<i class="icon ion-ios-sunny"></i> 


item range range-balanced" style="background: #4cf££00"> 
icon ion-ios-sunny-outline"></i> 
<input type="range" name="volumeb" ng-model="$parent.volumeb" min="0" max="255" value="100"> 
<i class="icon ion-ios-sunny"></i> 
</div> 
</div> 
<div align="right"> 
<button class="button button-light" ng-click="setRGB () "> 
Set 
</button> <!- 使 用 ng-click 为 按钮 绑 定 事件 响应 函数 -> 
<button class="button button-light" ng-click="resetRGB () "> 
Reset 
</button> 
</div> 
</ion-view> 


接着 我 们 来 看 一 下 设置 页 面 的 HTML 代 码 : 


<ion-view view-title="Setting"> 
<ion-content> 
<ion-list> 
<label class="item item-input"> 
<span class="input-label">Hostname</span> 
<input type="text" placeholder="192.168.1.2:8080" ng-model="$parent .hostname"> 
</label> 
</ion-list> 
<ion-list> 
<label class="item item-input"> 
<span class="input—label">Udpa’ 
<input type="text" placeholder: 
</label> 
</ion-list> 
<div align="right"> 
<button class="button button-light" ng-click="updateSetting () "> 
Update 
</button> 
</div> 
</ion-content> 
</ion-view> 


Time</span> 
" ng-model="Sparent.updatetime"> 


有 UI 视 图 部 分 的 HTML， 按 照 MVC 设 计 模式 ， 接 下 来 我 们 来 分 析 一 下 控制 器 部 分 的 代码 : 


angular.module('starter.controllers', []) 
.controller('DashBroadCtrl', function ($scope, $timeout, hardware) { 
// 声 明 仪表 板 页 的 控制 器 
// 通 过 依赖 注入 我 们 自 定义 的 模型 hardware 封 装 与 物 联网 节点 相关 的 所 有 功能 
Sscope.messagelist = []; 
function repeat () { 
hardware. temperature (function (data) { 
$scope.messagelist.push({ title: "Temp", message: data }); 
// 收 到 数据 后 利用 回 掉 函 数 将 结果 添加 到 messagelist 中 
We 
hardware.moisture (function (data) { 
S$scope.messagelist.push({ title: "Moist", message: data }); 
Me 
$timeout (repeat, localStorage.updatetime) ; 


// 利 用 Anguar.js 提 供 的 Stimeout 完 成 周期 性 温 湿度 数据 读 取 


El 


f 
repeat (); 
T) 
-controller('ControllerCtrl', function ($scope, hardware) { 
// 声 明 控制 器 页 的 控制 器 
$scope.volumer = 128; // 设 置 滑 块 的 默认 值 
$scope.volumeg = 128; 
Sscope.volumeb = 128; 
$scope.setRGB = function (volumer,volumeg,volumeb) { 


hardware. led ($scope.volumer, $scope.volumeg, $scope.volumeb) 
} 
$scope.resetRGB = function () { 

$scope.volumer = 0; 

$scope.volumeg = 

$scope.volumeb = 


0; 
hardware.led(0, 0, 0) 


T 
T) 
- Gont rol ler ('SettingCtrl', function ($scope) { 
// 声 明 设置 页 的 控制 器 
if (!localStorage.hostname) { // 设 置 默认 值 
localStorage.hostname = "localhost:8080"; 


T 
if (!localStorage.updatetime) { 
localStorage.updatetime = 5; 


panga) 节点 的 地 址 在 整个 应 用 中 都 可 能 需要 ， 这 里 使 用 localStorage 实 现 这 一 数据 在 各 模 
// 块 之 间 的 共享 
$scope.updateSetting = function () { 
if ($scope.hostname) 
localStorage.hostname = $scope.hostname; 
if ($scope.updatetime) 
localStorage.updatetime = $scope.updatetime * 1000; 


最 后 我 们 来 分 析 一 下 MVC 中 的 最 后 一 部 分 模型 部 分 代码 : 


angular. sees starter.services', []) 
.service('hardware', function ($http) 
7/ 注册 代表 物 联网 节点 的 hardware 服 务 ， 由 Ta 本 用 HTTP 协议 与 物 联网 节点 通信 ， 因 此 需要 注入 
// Pangular.js 的 Shttp 服 务 
this.led = function(r,g,b) { 

Shttp.post ("http://" + lo oo hostname + "/fpga/api/call/led", 

JSON.stringify([0, r, 

/使 用 基于 HTTB 沟 AJAx 油 用 六 ER 点 的 Led 接 口 API， 数 据 使 用 JSON 封 装 

.Success (function (response) { 

console.log (response) 7 


he 


T 
this.temperature = function (callback) { 
ee ay. localStorage.hostname + "/fpga/api/call/am2301_temperature", 
JSON. stringify([0]) B 
We Risa 点 的 温度 传感器 接口 API， 数 据 使 用 JSON 封 装 
.Success (function (respon: 
callback (response); H 回调 函数 处 理 远 端 节点 的 返回 数据 
T: 
T 
this.moisture = function (callback) { 
Shttp.post ("http://" + localStorage.hostname + "/fpga/api/call/am2301_moisture", 
JSON. stringify({0])) 
.Success (function (response) { 
callback (response) : 
he 
T 
H) 


[由 拓展 阅读 http://www.ionic.wang。 
[2] 引用 http://baike.baidu.com/item/Cordova。 


B] 参考 https:/ /xdsnet.gitbooks.io/angular-phonecat-book-zhcn/content/。 


64 ”本 章 小 结 


在 本 章 中 ， 我 们 深入 学 习 了 基于 HTML5 的 物 联网 单 页 应 用 的 开发 ， 着 重 研究 了 HTML5 中 的 几 个 重要 数据 展示 手段 ， 其 中 包括 多 媒体 的 视频 与 语音 、 流 媒体 以 及 数据 可 视 化 技术 (包括 SVG、Canvas 和 
WebGL) 。 接 着 我 们 学 习 了 Angularjs 技 术 来 将 HTML5 网 页 融合 为 一 个 单 页 应 用 ， 深 入 学 习 了 Angularjs 的 MVC 设 计 模式 、 双 向 绑 定 、 依 赖 注入 以 及 URL 路 由 。 最 后 我 们 将 Angularjs 扩 展 到 移动 端 , 采 
lonic 框 架 来 开发 物 联网 移动 应 用 ， 并 用 一 个 物 联网 应 用 实例 复习 与 回顾 了 本 章 的 技术 要 点 。 


S78 ”基于 JavaScript 物 联网 数据 安全 


7.1 物 联 网 的 安全 挑战 


从 前 面 几 个 章节 我 们 已 经 可 以 发 现 ， 整 个 物 联 网 最 有 价值 的 是 物 联 网 中 流动 的 数据 。 在 物 联 网 节点 端 收集 到 的 数据 ， 通 过 网 络 传送 到 数据 中 心 ， 在 数据 中 心 ， 物 联网 数据 经 大 数据 技术 处 理 与 加 工 ， 然 
后 存储 下 来 以 备 使 用 机 器 学 习 技术 进行 分 析 以 及 使 用 HTML5 技 术 进 行 展示 。 可 以 说 ， 整 个 物 联网 都 围绕 着 数据 进行 架构 ， 因 此 数据 安全 就 变 得 尤其 重要 ， 尤 其 在 开放 式 的 物 联网 环境 ， 保 护 数据 是 重 中 之 


中 | 
ton 


目前 ， 物 联网 的 安全 威胁 相对 传统 互联 网 安全 威胁 仍然 只 是 很 小 的 一 部 分 。 但 是 ， 随 着 近年 来 物 联 网 的 高 速 发 展 ， 物 联网 的 安全 问题 已 经 开始 受到 行业 关注 。 针 对 物 联网 的 病毒 很 有 可 能 在 未 来 几 年 流 
行 开 来 。 原 来 能 够 阻碍 网 络 病毒 的 那些 障碍 正在 一 项 一 项 消失 ， 相 应 的 物 联网 安全 技术 标准 却 尚未 成 形 或 没有 受到 重视 ， 而 物 联网 相对 于 传统 网 络 又 有 很 多 安全 难题 尚 待 解决 。 在 不 久 的 将 来 ， 物 联网 有 可 
能 超越 传统 互联 网 成 为 网 络 病毒 网 络 安全 事件 的 重 灾 区 。 因 此 我 们 需要 详细 研究 物 联网 安全 ， 特 别 是 数据 安全 。 


7.1.1 ”未 来 已 经 来 临 


未 来 已 经 来 临 ， 只 是 尚未 流行 。 一 一 威廉 .吉布森 


凯 文 凯利 在 其 作品 《必然 》 中 引用 这 句 话 来 说明 ， 其 实 很 多 新 的 技术 已 经 早 就 以 某 种 形式 出 现在 我 们 的 生活 中 ， 只 是 我 们 还 没有 注意 到 它 的 重要 性 而 已 。 在 这 里 ， 我 把 这 和 句 话 套用 在 物 联网 安全 领域 
一 一 威胁 已 经 来 临 ， 只 是 尚未 流行 。 首 先 我 们 来 看 看 已 经 来 临 的 威胁 。 


小 故事 小。 美国 挤 线 ! 小 设备 攻陷 一 个 超级 大 国 中 


2016 年 10 月 21 日 早晨， 美国 互联 网 服务 商 Dynamic Network Service (简称 Dyn) 遭遇 了 大 规模 DDoS 攻击 ， 造 成 包括 Twitter、Facebook 在 内 的 多 家 美国 网 站 出 现 登 录 问 题 。 有 数据 表明 ， 黑 客 发 起 此 次 攻 
击 ， 是 运用 全 球 上 千 万 台 感 染 了 恶意 代码 的 物 联 网 智能 设备 ， 如 CCTV 闭 路 监控 装置 、 数 码 摄影 设备 等 。 


起 初 ，Dyn 没 有 确定 此 次 攻击 的 具体 来 源 ， 但 有 消息 称 ， 此 次 大 规模 攻击 与 9 月 底 被 公开 源 代 码 的 DDoS 恶意 程序 Mirai 有 关 。 网 络 信息 安全 公司 Flashpoint 研 究 主管 Allison Nixon 称 ， 至 少 有 一 个 Mirai 僵 尸 网 


络 参与 了 此 次 攻击 ， 而 感染 Mirai 的 僵尸 网 络 背后 是 一 批 被 控制 的 设备 或 组 件 。 这 些 物 联网 设备 的 安全 隐患 在 于 : 允许 用 户 更 改 网 络 管理 面板 上 的 默认 用 户 名 和 密码 。 癌 


ty 


联网 设备 的 设计 开发 环境 也 干 差 万 别 ， 操 作 系 统 的 支持 十 分 有 限 ， 一 般 采 


期 


个 设备 的 安全 性 很 弱 ， 但 是 可 能 这 个 设备 有 这 样 的 漏洞 ， 但 是 到 另 一 个 设备 上 却 没有 一 样 的 漏洞 , 
所 花 的 时 间 、 成 本 也 远 远 高 于 其 所 获得 的 价值 ， 在 经 济 上 完全 是 赔本 的 生意 。 没 有 了 经 济 利益 的 


此 前 有 国外 电信 公司 表示 ， 有 超过 50 万 物 联网 装置 已 经 感染 Mirai ， 这 一 数字 还 在 不 断 增加 。 未 来 ， 随 着 Mirai 变 种 病毒 的 出 现 ， 僵 尸 网 络 将 会 继续 发 动 DDoS 攻击 ， 而 避免 这 种 攻击 ， 需 要 设备 生产 商 联合 
起 来 ， 提 高 物 联网 设备 的 安全 门槛 ， 同 时 ， 用 户 也 应 该 提高 物 联网 设备 使 用 的 安全 意识 。 


1.2 ”早期 物 联网 安全 


最 开始 ， 黑 客 对 物 联 


C 语 言 甚 至 汇编 语言 


设备 并 没有 太 大 兴趣 ， 这 是 因为 物 联网 属于 嵌入 式 设备 ， 在 2010 年 之 前 的 物 联网 早期 阶段 ， 软 件 设计 、 硬 件 设计 都 没有 标准 ， 每 个 厂商 会 有 自己 的 硬件 设计 与 软件 设计 标准 ， 物 


接 开 发 ， 软 件 也 不 开源 ， 而 且 开发 工具 通常 比较 昂贵 ， 需 要 向 厂商 购买 ， 


并 且 软 件 与 硬件 有 相同 的 生命 周 


， 软 件 不 可 更 改 。 这 些 限制 无 疑 提高 了 黑客 破解 物 联网 设备 并 编写 病毒 程序 的 难度 。 同 时 ， 在 物 联网 早期 ， 编 写 病毒 程序 与 入 侵 设备 通常 是 一 个 不 经 济 的 行为 ， 由 于 物 联网 设备 标准 不 统一 ， 虽 然 可 能 


国 


页 搜索 结果 。 而 近 两 年 来 依托 于 大 数据 技术 ， 人 工 智能 利 
理 的 技术 。 深 度 学 习 的 一 个 重要 需 


的 


将 会 是 未 来 数据 收集 的 关键 基础 设施 与 入 口 ， 


物 


FF 
易 


a6 
Be 


但 
国 
是 


H 
2 


B 


Lo 


发 
的 


家 或 者 个 人 因为 极 大 的 经 济 、 政 治 、 军 事 利益 而 有 组 织 的 行动 。 在 早期 物 联 网 中 ， 比 较 有 名 的 安全 和 
恶意 代码 研发 成 本 较 高 ， 某 种 程度 上 提供 了 一 个 安全 的 防火 墙 与 壁垒 ， 使 得 


期 物 联网 相对 安全 。 


13 ”现代 物 联网 安全 


大 数据 与 人 工 智能 时 代 的 到 来 改变 了 原来 早期 物 联 网 的 安全 壁垒 。 大 数据 首先 起 源 于 互联 网 企 


深度 学 习 技术 完成 了 又 一 次 复兴 。 所 谓 


区 动 ， 参 与 黑客 行为 的 人 就 不 会 太 多 ， 这 也 使 得 


黑客 要 根据 不 同 的 设备 开发 不 同 的 病毒 或 黑客 软件 ， 工 作 量 过 大 ， 即 使 黑客 能 够 一 个 一 个 攻破 这 些 设备 ， 


期 物 联网 黑客 行为 是 仅仅 一 小 部 分 人 的 兴趣 爱好 ， 或 者 是 
件 应 该 是 某 蠕虫 病毒 对 浓缩 铀 离心 机 的 破坏 B]。 正 是 由 于 物 联网 设备 的 攻击 面 小 和 针对 物 联网 设备 的 


业 ， 作 为 大 数据 的 最 早 发 起 者 ，Google 使 用 大 数据 技术 来 存储 网 页 构建 索引 ， 为 全 世界 用 户 提供 快速 的 网 


深度 学 习 技术 ， 就 是 采 


求 是 需 


非常 大 量 的 数据 来 进行 训练 ， 


AlphaGo、 微 软 小 冰 等 都 利 


深度 学 习 取 得 了 巨大 的 成 功 ， 这 样 的 成 功 反 过 来 推动 了 对 数据 的 需求 ， 进 而 催生 了 对 大 数 
储 了 下 来 ， 如 何 进一步 获得 更 多 有 价值 的 数据 ， 并 利 


谁 掌握 了 物 联网 ， 谁 就 能 够 最 终 掌握 数据 ， 而 利用 大 : 


联网 收集 数据 ， 到 人 工 智能 深度 学 习 ， 再 到 物 联网 控制 执行 的 整个 大 闭环 。 正 是 这 样 的 闭环 推动 


深度 形式 的 神经 网 络 通过 从 数据 中 学 习 出 数据 的 模式 ， 对 新 的 数据 做 出 判断 与 处 
因为 深度 神经 网 络 有 大 量 的 学 习 参 数 ， 如 果 没 有 足够 的 数据 来 训练 这 些 参数 使 其 收敛 ， 深 度 网 络 将 无 法 有 效 地 发 挥 其 性 能 。 
届 的 需求 。 而 原来 基于 互联 网 的 大 数据 技术 已 经 将 互联 网 上 有 价值 的 数据 几乎 都 存 
深度 学 习 技术 从 这 些 数据 里 发 握 出 价值 是 目前 所 有 科技 巨头 共同 的 目标 。 而 这 些 正 是 驱动 现代 物 联网 发 展 的 关键 动力 ， 所 有 科技 巨头 都 发 现 ， 物 联网 


Google 


数据 与 人 工 智能 技术 就 能 将 这 些 数据 变 为 真正 有 价值 的 东西 。 一 个 有 意思 的 例子 就 是 亚马逊 的 Echo，Echo 
不 仅仅 是 亚马逊 的 一 个 简单 产品 而 已 。 Echo 通过 收集 用 户 语音 ， 传 输 到 亚马逊 的 数据 中 心 ， 利 用 深度 学 习 技术 识别 语音 ， 然 后 亚马逊 的 数据 中 心 利 用 识别 结果 来 控制 用 户 家 里 的 物 联 网 设备 。 Echo 完成 了 从 


了 继 大 数据 与 人 工 智能 


后 物 联网 需求 的 快速 增长 。 


大 数据 、 人 工 智能 与 物 联网 的 闭环 ， 不 仅 推动 了 物 联网 的 快速 发 展 ， 而 且 给 物 联 网 的 安全 带 来 了 深刻 的 变化 。 大 数据 、 人 工 智 能 与 物 联 网 的 闭环 使 得 整个 
联网 负责 收集 数据 ， 数 据 中 心 负责 存储 数据 ， 人 工 智能 负责 
化 为 基础 的 技术 栈 。 在 通信 技术 方面 ， 形 成 各 种 标准 的 、 基 于 IP 的 通信 协议 ， 包 括 MQTT、CoAP、HTTP; 在 数据 格式 方面 ， 趋 向 于 使 
标准 数据 格式 ;在 操作 系统 方面 ， 大 量 使 


处 理 数据 。 所 有 的 工作 都 围绕 着 数据 进 


发 定制 自己 的 物 联 网 系统 。 这 些 变化 ， 无 疑 促进 了 以 数据 为 中 心 的 现代 物 联网 的 发 展 ， 但 同时 也 
地 获得 开发 工具 来 开发 一 款 可 以 运行 在 几乎 所 有 物 联网 设备 上 的 恶意 程序 或 病毒 ， 实 现 控制 物 联 


行 。 为 了 打破 数据 孤岛 或 数据 烟 


， 完 成 数据 的 流动 ， 物 联 


络 转向 了 以 数据 为 中 心 的 现代 网 络 ， 其 中 物 
技术 必须 打破 原 有 的 专 有 技术 ， 转 向 以 标准 


已 经 在 大 数据 环境 中 大 量 应 


BISON, Avro, Protocol Buffer 等 


Linux 操 作 系统 ; 在 开发 语言 方面 ， 也 从 C 语 言 过 渡 到 C+ +、Java、Javascript 等 高 级 语言 。 系 统 的 开发 环境 换 成 了 


Linux 的 开源 环境 ， 任 何人 只 要 有 兴趣 就 能 


彻底 打破 了 传统 物 联 网 的 安全 壁垒 ， 使 得 现代 物 联网 完全 暴露 在 黑客 的 攻击 之 下 。 现 在 的 黑客 能 够 非常 容 


网 设备 、 偷 窃 关 键 数据 的 任何 事情 ， 甚 至 黑客 利 


。 因 此 ， 正 是 现代 物 联网 以 数据 为 中 心 的 模式 造成 了 现代 物 联网 的 安全 问题 变 得 非常 突出 与 重要 。 


当 物 联网 的 安全 壁垒 变 得 越 来 越 薄弱 的 时 候 ， 物 联网 自身 不 利于 安全 的 一 些 问题 却 没有 得 到 改 


善 。 首 先 在 应 


物 联网 设备 的 漏洞 


环境 中 ， 物 联网 设备 的 数量 远 超 传统 网 络 ， 
是 可 能 会 有 数 十 万 的 物 联网 设备 运行 在 公司 的 物流 体系 、 摄 像 监 控 网 络 等 环境 中 。 这 些 物 联网 设备 的 寿命 要 远 远大 于 计算 机 ， 一 般 设 备 的 设计 寿命 大 于 5 生 


最 终 突破 整个 数据 中 心 也 不 是 没有 可 


一 个 公司 可 能 只 有 上 干 名 员工 使 用 着 计算 机 ， 
FEF， 为 某 个 安全 问题 进行 改造 成 本 太 高 。 前 面 的 美 


掉 线 就 是 一 个 很 好 的 例子 ， 最 后 ， 厂 商 不 得 不 召回 所 有 出 问题 的 监控 设备 ， 返 回 工厂 进行 安全 升 
设备 众多 而 维护 困难 。 


参考 https://36kr.com/p/5055013.html。 
参考 http://www.freebuf.com/news/116722.html。 


参考 http://www.360doc.com/content/10/1207/23/443827_75990345.shtml。 


本 章 小 结 


级 。 这 样 的 安全 


故 不 仅 影响 企业 的 信誉 ， 


在 本 章 中 ， 首 先 ， 我 们 列举 了 现代 物 联网 遇 到 的 安全 挑战 ， 整 个 物 联网 从 早期 的 定制 专 有 系统 
， 从 设备 、 网 络 以 及 数据 等 方面 讲解 了 如 何 缩小 攻击 表面 保护 物 联网 安全 。 然 后 ,我 们 引入 现代 


向 复杂 的 开源 系统 方向 转变 ， 


猎 杀 。 最 后 ， 我 们 从 JavaScript 出 发 ， 介 绍 了 在 应 用 JavaScript 进 行 物 联网 设计 的 过 程 中 需要 使 


的 一 些 安全 技术 。 


第 8 章 ” 物 联网 智能 网 关系 统 开发 


在 前 面 的 章节 中 ， 我 们 研究 分 析 了 如 何 


JavaScript 来 设计 物 联网 的 方方面面 。 这 其 中 包括 : 


+ 开发 物 联网 的 智能 网 络 节点 ; 

“ 开发 物 联网 后 台大 数据 处 理 与 存储 ; 

“ 开发 基于 人 工 智能 数据 的 物 联网 的 分 析 ; 
“ 数据 可 视 化 ; 


“ 物 联 网 安全 的 监控 与 管理 。 


从 本 章 开始 进入 实践 阶段 。 本 章 将 把 重点 放 在 物 联网 智能 网 关 的 研究 与 学 习 上 。 通 过 下 


践 之 旅 。 


究 与 分 析 本 书 作者 发 起 与 维护 的 开源 物 联网 智能 网 关 OpenFPGAduino， 视 野 不 再 局 限于 物 联 网 软件 设计 ， 
展 到 包括 物 联网 硬件 在 内 的 物 联网 节点 系统 设计 的 多 个 方面 ， 提 供 一 个 俯 隔 物 联网 节点 设计 全 狐 的 机 会 ， 近 距离 审视 物 联网 节点 设计 细节 。 接 下 来 ， 我 们 就 以 物 联网 智能 网 关 为 入 口 进行 我 们 的 物 联网 实 


更 影响 了 企业 的 盈利 。 总 结 来 阅 ， 现 代 物 联网 安全 的 核心 矛盾 


这 给 黑客 攻击 物 联 网 带 来 了 便利 。 接 着 ， 我 们 从 
网 络 安全 猎手 与 击 杀 链 的 概念 ， 在 物 联网 安全 上 反 守 为 攻 : 基于 大 数据 的 物 联 


络 安全 的 攻击 表面 理论 出 
安全 监控 系统 实现 对 黑客 


TOE 


8.3 Nodejs 物 联网 系统 开发 


采 


第 一 个 便利 是 我 们 可 以 继承 Nodejs 完 


Nodejs 作 为 物 联网 系统 的 核心 能 为 我 们 带 来 非常 多 的 便利 。 


善 的 网 络 协议 栈 ， 不 需要 在 各 种 不 同 的 TCP/IP 库 、HTTP 库 等 网 络 H 


第 二 个 便利 是 我 们 可 以 继承 Nodejs 海 量 的 功能 模块 与 库 ， 这 些 库 都 通过 NPM 来 组 织 与 管理 。 在 前 


库 及 库 所 需 的 所 有 依赖 ， 


当 甘 ， 


这 一 点 非常 重要 。 


他 开发 语言 ， 


解决 了 几乎 所 有 的 依赖 关系 ， 这 在 作为 网 关节 点 的 嵌入 式 系统 中 是 太 重要 了 。 


第 三 个 便利 是 ， 在 Nodej 


任何 开发 环境 与 设备 辅 


8.3.1 


在 OpenFPGAduino 整 个 项 目的 各 个 模块 中 ， 
库 以 及 Express 框 架 实现 了 物 联 网 TCP/IP 


Eb, 


Arduinojs 网 络 系统 


大 的 灵活 性 与 可 伸缩 性 ， 


务 统一 起 来 ， 用 户 可 以 无 


上 ,我 们 又 进一步 地 开发 了 端 到 端的 物 联网 测试 方法 ， 这 极 大 提高 了 


CS 


户 可 以 动态 加 


户 就 能 发 挥 创 造 力 来 定制 


层 以 及 HTTP 应 
载 所 需要 的 微 


面 的 


特别 是 在 谋 入 式 环境 下 的 编程 语言 ， 在 没完 没 了 


一 会 儿 缺 少 一 个 依赖 ， 


属于 


属于 Node.js 物 联网 系统 周 
恨 的 所 有 功能 ， 
民 务 并 通过 微 


同 


8.3.2 Express HTTP 服 务 


物 联网 智能 网 关 最 
应 各 种 控制 终端 发 出 的 
持 ， 特 别 是 Restful AP 


操作 请 求 ， 更 重 


地 组 合 云 服务 与 物 联网 微服 务 ， 这 进一步 拓 


RET 


自己 的 物 联 网 系统 ， 我 们 将 在 第 9 章 看 到 一 


分 的 是 ArduinoJjjs 
时 通过 组 合 模块 动态 
肛 务 来 实现 自己 的 创新 想法 。 
户 的 创新 能 力 。 利 


s 上 运行 JavaScript 脚 本 语言 ， 为 物 联网 系统 带 来 了 巨大 的 灵活 性 与 创造 性 。 使 


议 库 之 间 做 选择 ，Node.js 已 经 内 置 了 对 网 络 的 完整 支持 ， 甚 至 包括 加 密 的 支持 。 


节 中 ， 我 们 已 经 看 到 仅 需 要 通过 一 条 npm install 命 令 ，NPM 包 管理 器 就 能 帮助 我 们 安装 所 需 
地 和 库 的 依赖 关系 做 斗争 ， 


一 会 儿 发 现 依赖 有 冲突 的 时 候 ，NPM 帮 有 我 们 


脚本 语言 可 以 方便 最 终 


HIS. REGEA. M 


在 使 


重要 的 功能 是 连接 物 联 网 与 互联 


户 开发 的 速度 与 能 力 。 


的 是 ， 物 联网 


的 支持 ， 


因 


此 我 们 仅 需要 从 NPM 库 中 选择 一 款 适 合 我 们 的 就 可 以 了 ， 


Express 是 一 个 基于 


Connect 中 间 件 ， 使 创建 健壮 、 友 好 的 API 变 得 既 快 速 又 简单 。 使 


Nodejjs 平 台 | 


的 极 简 、 


“ 可 以 设置 中 间 件 来 响应 HTTP 请 求 。 


灵活 的 Web 应 


RESTful AP 


系列 的 实现 这 一 设想 的 例子 。 


AP 


开发 框架 ， 它 提供 一 系列 强大 的 特性 和 丰富 的 HTTP 工 ， 


“ 定义 了 路 由 表 用 于 执行 不 同 的 HTTP 请 求 动作 。 


“ 可 以 通过 向 模板 传递 参数 来 动态 泻 染 HTML 页 面 。 


“ Express 基 于 Node.js 平 台 ， 是 快速 、 开 放 、 极 简 的 Web 开 发 框架 


利 


， 有 助 于 创建 各 种 Web 和 移动 设备 应 


户 参 与 系统 的 设计 ， 只 要 


户 掌握 简单 


的 JavaScript 语 言 ， 无 须 


https://github.com/OpenFPGAduino/Arduinojs) 模块 。 在 Arduino.js 模 块 中 ， 我 们 依托 Node.js 的 网 络 
更 新 ， 我 们 还 实现 了 微服 务 架构 。 通 过 微服 务 架构 ， 我 们 为 物 联网 网 络 系统 提供 了 巨 
作为 物 联网 微服 务 间 的 通信 标准 后 ， 我 们 将 物 联网 网 关系 统 的 微服 务 与 后 台 云 端的 微服 
微服 务 框架 ， 我 们 又 设计 了 硬件 的 软件 仿真 环境 ， 这 是 通过 蔡 换 与 硬件 相关 的 微服 务 来 实现 的 。 在 此 基础 


关 需 要 源源 不 断 地 将 收集 到 的 数据 传输 到 物 联 网 大 数据 系统 中 以 便于 对 数据 进行 分 析 。 对 于 Node.js 来 说 ， 
这 里 我 们 选择 Express 作 为 构建 Restfu 


| 的 基础 。 


， 而 在 互联 网 上 ， 最 基本 的 服务 是 HTTP 服 务 ， 物 联网 网 关 需 要 通过 HTTP 协 议 来 处 理 与 控制 云端 节点 的 资源 服务 于 物 联网 ， 同 时 物 联网 网 关 也 要 响 


已 经 有 大 量 现成 可 


的 包 来 提供 HTTP 支 


。 丰富 的 HTTP 快 捷 方法 和 


Express 可 以 快速 地 搭建 一 个 完整 功能 的 网 站 。Express 框 架 核心 特性 [0] 如 下 。 


以 上 这 些 Express 的 特性 ， 我 们 很 容易 就 能 够 搭建 一 个 功能 完整 的 HTTP 服 务 器 。 一 个 具有 完整 HTTP 功 能 的 主 程序 serverjs 如 下 所 示 。 


var http = require('http'); 
var express = require('express'); 
var app = express (); 

app.set ("etag", false) 


// 关 闭 这 一 


d 


/ 初始 化 Express 


// 关闭 web 缓存 验证 机 ， 我 们 开发 的 是 应 用 物 联网 网 关 ， 


机 制 可 以 保证 : ese API 请 求 浏览 器 都 会 取 服 务 器 上 的 新 值 


app.use (bodyParser.urlencoded({ // 使 用 中 间 件 使 得 Express 支 持 
//application/x-www-form-urlencoded 类 型 的 HTTP 请 求 ， 也 就 是 将 请 求 的 参数 编码 在 URI 链 接 中 
extended: true 


H); 
ap] 

7 ASP PE 
app 
TKT 


RT 


app. use (ex) ress.static( 


p] 

// 使 用 中 间作 
app.use (multer (1 
bT 


dest: 


H)? 


use ES Parser.json( 
G 型 的 HTTP 请 求 
.Use KS Parser.text ( 
rss 和 applicacion/eex 关 me 
use ES Parser. raw ( 
pication /ran E 
dirname + '/pa 


使 得 S l A 文件 ， 人 T d'ia 以 存放 我 们 的 静态 HTML 网 页 


poss 文件 上 传 ， 


./uploads/ 


上 


var server = http.createServer (app) ; 


// 使 用 


server.listen (port); 


LIF 


//téport | 


8.3.3 ”微服 务 架 构 


在 物 联网 系统 中 ， 特 别 是 物 联 
同时 ， 我 们 需要 从 不 同 的 需求 中 抽 


首先 ， 
的 接 [ 


图 


与 视 | 


接 下 来 ,我 们 就 进入 Arduino.js 网 络 系统 内 部 ， 通 过 边 分 析 代 码 边 讲解 原理 的 方式 ， 深 入 理解 如 何在 Node.js 环 境 下 使 用 JavaScript 来 实现 适应 于 物 


1. 模 块 加 载 


要 实现 微服 务 架 构 ， 需 要 实现 程序 的 模块 化 。 在 第 2 章 中 ,我 们 已 经 学 习 了 Node.js 的 包 结 构 以 及 包 管理 器 NPM， 
服务 。 在 微服 务 架 构 中 ， 
Arduino.js 的 设计 中 采用 了 基于 文件 夹 的 配置 模式 ， 一 个 特定 目录 下 的 所 有 文件 都 会 作为 微服 务 进行 加 载 。 接 下 来 我 们 就 来 看 一 下 Arduino.js 微 服务 模块 加 载 : 


启 HTTP 服 务 


微服 务 间 的 通信 和 采 


Fei 


Express 绑 定 到 HTTP 服 务 器 


网 网 关中 ， 由 于 物 联网 功能 与 形态 


传 文件 存储 到 uploads 目 录 下 


的 多 样 性 ， 物 联网 需求 、 应 


取出 共有 的 部 分 与 特有 的 


RESTful AP1， 数 据 传 输 采 上 


] 无 法 提前 获得 代 。 


var fs = require('fs'); 
var path = require ('path'); 
var load = function(path, name) 


{ 


部 分 ， 共 有 模块 可 以 提高 代码 


仇 服务 的 数量 以 及 所 对 应 的 包 的 名 字 ， 


率 和 


此 我 们 需要 在 Nodejs 包 管理 的 基础 上 实现 包 的 动态 加 载 ， 根 据 配置 需要 


应 


来 快速 实现 创新 、 特 殊 的 功能 。 


任意 排列 组 合 的 


与 服务 各 不 相同 ， 微 服务 可 以 将 一 个 系统 的 不 同 功能 进行 解 厢 ， 大 大 降低 系统 的 复杂 度 以 及 开发 的 难度 。 
开发 速度 ， 而 特殊 功能 的 小 模块 能 够 通过 组 合 、 


面 来 看 一 些 设计 考 


JSON 格 式 ， 最 大 限度 保证 Arduinojs 物 联网 系统 和 其 他 程序 以 及 各 种 云 服务 的 兼容 性 ， 而 


// 加 载 用 于 访问 路 径 与 文件 的 包 


能 够 消除 云 与 物 联网 的 边界 ， 为 


医 网 的 微服 务 架构 


户 提供 一 个 统一 


因此 可 以 为 每 个 微服 务 都 定义 一 个 Nodejs 的 包 ， 然 后 通过 require 语 句 来 加 载 我 们 的 微 
自动 加 载 所 需 的 微服 务 包 。 为 方便 管理 ,在 
的 实现 loaddirjs 文 件 : 


if 


// 声 明 1load 函 数 ， 它 将 作为 一 个 函数 模板 ， 并 绑 定 到 每 一 个 要 加 载 的 微服 务 模块 上 ， 实 现 模块 加 载 
{ 


} 


(name) 
return require (path + name); // 用 require 加 载 模块 


return require (path) 


T: 


module.exports = function (dir) 
// 导 出 用 于 加 载 的 主 函 数 ， irk HBL MAING Ha 
patcher = {} 
fs.readdirSync( dirname + '/' + dir). forEach (function (filename) 


// #Nodejs#, dirnameftd h BTR HIH AR, EAIA DERS NE H ahn, // 使 用 的 是 函数 式 编程 的 forEach 语 法 
if (!/\.js$/.test(filename)) { // 过 滤 那 些 不 是 JavaScript 的 文件 
return; 
} 
var name = path.basename (filename, '.js'); // 将 文件 名 作为 微服 务 模块 名 字 
ad = load.bind(null, './' + He + '/', name); 


ar lo 
T T TRET Sù a ST Ra SHER load 


tche 
// 函 数 ， Pra T CG 这 里 这 样 设 // 计 是 为 了 能 够 实现 微服 务 的 懒 加载 (有 关 懒 加 载 的 概念 请 参看 第 4 章 


Ds 


er. defineGetter (name, oad); // 将 绑 定 函数 aa R R BFT Bast 


return patcher; // 返 回 包含 了 微服 务 所 在 目录 下 所 有 微服 务 名 字 字 段 的 结构 ， 以 便 程 序 使 用 


) ， 也 就 是 只 有 在 我 们 真 的 调用 // 微 服务 模块 时 才 对 模块 


在 主 程 序 serverjs 中 ， 通 过 以 下 代码 来 准备 这 些 要 加 载 的 微服 务 模块 : 


var loadDir = require('./loaddir'); // 获 取 动 态 加 载 功能 


var modul 


REMARKI, Arduino. ERIE WER H Ahar 


Ge ca app 


一 个 最 简单 的 Arduino.js 微 服务 模块 如 下 所 示 : 


module.exports = function() { 
console.log('micro service'); 


T 


将 其 放 到 微服 务 目录 apps 下 ， 系 统 就 能 自动 作为 微服 务 加 载 。 


2. 依 赖 注 入 


在 上 面 的 例子 ， 我 们 除了 打印 了 一 句 输出 什么 事情 也 没有 做 ， 这 显然 不 是 一 个 功能 完整 的 微服 务 。 在 实际 的 应 用 中 ， 微 服务 需要 加 载 许多 不 同 的 功能 模块 ， 并 完成 不 同 的 任务 ， 更 重要 的 是 需要 通过 注 


册 API 接 口 来 为 


module.exports = function(app, logger, express) { 

// 这 里 我 们 注入 了 HTTP 服 务 器 对 象 app 用 于 挂 在 API， 日 志 服务 对 象 logger 用 于 记录 日 志 ， 
//express 对 象 用 于 共享 express 下 的 方法 而 不 需要 每 次 新 建 一 个 

logger.info('module script'); 

var router = express.Router(); 


router.post('/run', function(req, res) { // 在 run 上 挂 载 一 个 post 请 求 
var script = req.body.script; // 获取 请 求 体 的 脚本 
console.log(script) ; 
var ret = eval(script); // 用 eval 调 用 脚本 
res.json({ // 返回 json 对 象 ， 告 知 用 户 脚本 已 运行 


Di 


message: 'run script api!' 


he 
.use('/script', router); // 在 HTTP 服 务 器 上 挂 载 路 由 /script， 并 将 前 面 声明 的 


人 ee 路 由 下 。 所 以 上 面 的 完整 路 径 是 /script/run 


户 提供 服务 。 我 们 需要 使 用 依赖 注入 技术 完成 以 上 工作 。 通 过 将 客户 端 技术 应 用 到 节点 中 ， 我 们 实现 了 一 次 物 联网 技术 的 迁移 。 在 微服 务 中 使 有 
的 问题 。 第 一 个 重要 的 问题 是 微服 务 的 API 接 口 的 注册 。 第 二 个 重要 问题 是 实现 控制 反 转 四 完成 微服 务 与 我 们 设计 的 Arduinojjs 服 务 器 之 间 的 解 耘 。 一 个 典型 的 使 


依赖 注入 技术 可 以 帮助 我 们 解决 两 个 很 本 
依赖 注入 的 模块 如 下 所 示 : 


在 Arduinojs 中 ， 为 降低 物 联网 平台 的 计算 负担 ， 我 们 没有 实现 像 第 6 章 中 的 Angularjs 那 样 的 复杂 依赖 注入 控制 器 ， 而 是 实现 了 一 个 较为 简化 的 版 本 ， 并 假定 需 


经 完成 初始 化 ， 这 样 大 大 降低 了 依赖 注入 实现 的 复杂 程度 。 接 下 来 我 们 就 来 看 看 Arduinojs 主 模块 如 何 将 依赖 对 象 注入 到 微服 务 中 : 


注入 的 对 象 在 Arduino.js 主 模块 中 已 


function parser_parameter (fun : str) 


// 通 过 获得 JavaScript 源 码 ， TT RE haa RE 
return fun_str.toString 


//#ljidavascripttytostring BmTu, Gn 序 的 JavaScript 源 代码 ， 并 最 终 获 得 需要 注入 的 参数 


«replace (/ ((\/\/.*$) | (\/\* [\s\S] *?\*\/) Rei Kp W) 


// 除 空 格 和 注释 


T 


:match (/*function\s* [*\ (]*\ (\s* ([*\) 1*)\) /m) [1] // get parameter 


function loadmodule ent! { 
for (m in module) 


Ha 字段 


T 
T 


var parameter = parser_parameter (module [m] ) ; // 获 得 要 注入 的 参数 
logger .debug (' arene ies T+ ais 
eval ('module[m]' + '(' + paramete: 


Y 
// 完 成 依赖 注入 ， LIAR BE Ay DEY AU SI 


loadmodule (module); // 加 载 module (前 一 节 中 我 们 生成 的 包含 所 有 微服 务 名 字 字 段 的 对 象 ) 下 
// 的 所 有 微服 务 模块 ， 并 完成 依赖 注入 


3. 在 应 用 更 新 


通过 模块 自动 加 载 与 依赖 注入 ， 我 们 实现 了 一 个 最 基本 的 微服 务 架 构 。 回 想 第 3 章 的 内 容 ， 对 于 物 联网 系统 来 说 ， 一 个 在 应 用 维护 过 程 中 特别 重 


9 需求 是 能 够 实现 代 和 


的 远程 部 署 与 热 更 新 ， 有 了 微服 


务 架 构 的 支持 ， 实 现 这 样 的 功能 就 变 得 十 分 容易 。 当 我 们 需要 为 Arduino.js 系 统 增加 新 的 功能 时 ,我们 需要 做 的 仅仅 是 将 新 的 文件 上 传 到 微服 务 模块 的 目录 下 ， 然 后 动态 进行 一 次 模块 加 载 就 可 以 了 。 


对 于 代码 的 更 新 ， 我 们 只 需要 将 更 新 后 的 微服 务 代码 上 传 到 微服 务 模块 目录 下 覆盖 原来 的 文件 ， 并 做 一 次 动态 模块 加 载 ， 完 成 对 API 的 注册 替换， 遗留 在 系统 里 的 老 代 码 的 缓存 等 待 系统 重启 后 就 自然 清 
除了 ， 这 对 于 Arduinojjs 物 联网 系统 的 微服 务 架构 来 说 足够 了 。 


对 于 需要 频繁 更 新 的 代码 ， 或 者 有 许多 依赖 关系 需要 清楚 的 情况 ， 请 读者 参阅 第 3 章 代码 热 更 新 的 相关 内 容 ， 而 对 于 Arduino.js 物 联网 系统 ， 我 们 提供 


手动 重启 整个 Arduino.js 物 联网 系统 来 消除 更 新 中 的 一 些 依赖 问题 。 


接 下 来 我 们 学 习 一 下 Arduino.js 物 联网 系统 中 微服 务 在 应 用 更 新 的 相关 实现 代码 。 首 先 我 们 来 学 习 更 新 RESTful API 的 实现 : 


通过 API 进 行 重 | 


启 的 机 制 ， 可 以 在 更 新 代码 后 ， 


app.post ('/install', function(req, res) { // 微 服务 安装 请 求 


var filename = req.body.filename; // 获 取 请 求 的 文件 名 参数 
var code = req.body.code; // 获 取 请 求 的 代码 参数 


fs.writeFileAsync( dirname + "/" + filename, code) 
// 将 代码 写 入 微服 务 目录 
-then(function() { 
res.json({ 
message: ‘app installed' 
he 
n 


he 
app.post ('/load', function(req, res) { // 微 服务 加 载 请 求 
var filename = req.body.filename; 
event.emit('load', filename); // 利 用 事件 循环 (参见 第 2 章 〉 发 送 加 载 请 求 
res.json({ 
message: ‘app load' 
he 
he 


有 了 RESTful API 部 分 的 实现 ， 我 们 接着 来 看 看 微服 务 的 动态 加 载 部 分 ， 这 一 部 分 代码 和 前 盏 


的 模块 加 载 代码 十 分 相似 : 


function dynamicloadmodule (filename) { 
var name = path.basename (filename, '.js'); 
var apppath = dirname + '/' + config.app path + filename; 
var script = "require(\'" + apppath + "\');" 
logger .debug ("Dynamic load module"); 
logger .debug (script) ; 


var ret = eval (script); // 运 行 代码 完 成 加 载 过程 
var parameter = parser parameter(ret)  ”// 获 得 注入 参数 
logger.debug('parameter is ' + parameter); 

script = "ret(" + parameter + ");"; 

eval (script) ; // 注 入 参数 启动 微服 务 


} 
event.addListener('load', dynamicloadmodule); // 接 受 前 面 发 出 的 事件 ， 并 调用 响应 


8.3.4 ”数据库 微 服务 


再 次 回 看 图 2-8， 我 们 可 以 发 现 ， 在 微服 务 架 构 中 一 个 很 重要 的 环节 是 基于 数据 库 的 各 种 服务 ， 包 括 账 号 服务 、 


存货 服务 、 运 输 服 务 ， 这 些 服务 提供 了 数据 持久 化 的 支持 ， 也 是 记录 系统 状态 的 地 方 ， 可 


以 说 是 微服 务 架 构 的 心脏 部 分 。 这 里 我 们 就 以 数据 库 微 服务 为 例 学 习 如 何在 Arduinojs 物 联网 系统 之 上 设计 微服 务 。 在 主 程序 server.js 中 导入 数据 模块 : 


var tingodb = require('tingodb') (); 
var db = new tingodb.Db(config.db path, {}); // 嵌入 式 JSON 数 据 库 


这 里 我 们 使 用 的 数据 库 是 TingoDB， 它 是 一 个 嵌入 到 JavaScript 进 程 内 的 文件 系统 或 内 存 数据 库 ， 完 全 使 用 JavaScript 开 发 ， 可 以 直接 嵌入 到 Node.js 中 ， 减 少 Arduino.js 物 联网 系统 的 系统 依赖 。 同 时 
TingoDB 在 API 级 别 上 与 MongoDB 相 兼容 ， 如 果 需 要 可 以 随时 升级 到 MongoDB。 接 下 来 我 们 来 研究 基于 TingoDB 的 数据 库 微 服务 的 完整 设计 : 


module.exports = function (app, logger, express, db) {// 增 加 了 数据 库 db 对 象 注入 
logger.info('module db'); 
//var tingodb = require ('tingodb') 0; ; 
//var db = new tingodb.Db("./", {}) 
// 这 里 我 们 的 数据 库 是 共用 的 ， KNN NI, 如 果 像 图 2-8 一 样 每 个 微服 务 有 独立 的 数据 库 ， 
// 可 以 将 上 面 两 行 注释 掉 ， 在 微服 务 内 部 创建 数据 库 而 不 是 注入 数据 库 
Var router = express.Router (); 
router.get('/list', function(req, res) { // 列 出 数据 库 所 有 文档 的 RESTful API 
// Use the admin database for the operation 
db.collectionNames (function (err, docs) { 
if ('err) { 

var namelist = [] 

var reg = /db. ([*\.].*)/g 

var match; 

logger.debug("db:" + docs); 

for (i in docs) { 

match = reg.exec (docs [i] .name) 
if (match != null) { 
logger .debug ("document name:" + match[1]) 
namelist.push(match[1]); // 添 加 符合 Tas SSI 


} 
} 
res.json(namelist) ; // 返 回 文档 列表 


B) 
T: 
router.get ('/list/:doc', function(req, res) { // 列 出 某 一 文档 RESTful API， 这 里 使 用 
// Express 的 URL 参 数 解析 特性 ， :doc 处 的 实际 请 求 url 会 被 保存 到 params .doc 中 ， 例 如 : /1ist/ 
// test 请 求 ，params .doc 为 test 
Yar doc = req.params.doc; 
var collection = db.collection (doc) ; 
collection. find({}).toArray(function(err, docs) { 
// 搜 索 数据 库 找到 所 需 文档 ， 这 里 可 能 会 有 多 个 文档 匹配 查找 
logger.debug ("Found the following records"); 
res.json (docs) ; 


he 


he 
router.post ('/add/:doc', function (req, res) { // 添 加 文档 RESTful API 
var doc = req.params.doc; 
var collection = db.collection (doc) ; 
collection. insert (req.body) ; 
res.json({ 
message: ‘insert ok' 
H: 
Ds 
router.post ('/update/:doc', function(req, res) { // 更 新 文档 RESTful APT 
var doc = req.params.doc; 
var collection = db.collection (doc) ; 
collection.update (req.body.query, req.body.command) ; 
res.json ({ 
message: ‘update ok' 
H 
he 
router.post ('"/query/:doc', function(req, res) { // 查 询 文档 RESTful API 
var doc = req.params.doc; 
var collection = db.collection (doc); 
collection. find (req.body) .toArray (function (err, docs) { 
logger.debug ("Found the following records") ; 
res.json (docs) ; 
he 
he 
router.delete('/remove/:doc', function(req, res) { // 删 除 文档 RESTful API 
var doc = req.params.doc; 
var collection = db.collection (doc) ; 
collection.remove(req.body, function(err, result) { 
logger .debug ("Removed the document"); 
res.json({ 
message: ‘remove ok', 
result: result 
he 
he 
); 
app.use('/db', router);  // 将 所 有 的 API 挂 载 到 /db 节点 下 


8.3.5 ”服务 发 现 


有 了 微服 务 架 构 ， 实 现 了 微服 务 的 动态 加 载 与 在 应 用 更 新 ， 一 个 自然 的 需求 就 是 需要 一 个 服务 发 现 机 制 来 动态 获取 微服 务 的 当前 状态 。 配 置 不 同 或 者 随 着 在 应 用 的 更 新 ， 每 个 物 联网 节点 所 拥有 的 微服 
务 可 能 不 同 。 在 第 3 章 中 ， 我 们 已 经 介绍 了 使 用 ZooKeeper 来 进行 服务 注册 与 服务 发 现 。 在 这 里 我 们 将 主要 目标 集中 在 单个 物 联网 网 关节 点 如 何 完成 自己 的 服务 发 现 工作 。 


为 完成 节点 内 部 的 服务 发 现 ， 我 们 需要 深入 到 Express 的 内 部 利用 Express 的 于 


要 特性 来 实现 自动 化 的 服务 发 现 ， 并 获得 所 有 RESTful API 的 方法 与 URL。 注 意 到 我 在 数据 库 微服 务 中 使 用 Express 的 AP 为 


每 个 微服 务 中 的 RESTful APl 都 注册 了 相应 的 URL 与 响应 函数 ，Express 在 URL 注 册 过 程 中 为 我 们 构建 了 一 个 URL 路 径 的 完整 集合 。 通 过 这 个 URL 集 合 ，Express 完 成 了 对 URL 路 由 工作 ， 并 响应 HTTP 请 求 。 而 
由 于 URL 集 合 通常 具有 树 形 结构 ， 因 此 Express 使 用 一 棵 树 来 实现 URL 路 由 的 快速 匹配 与 查找 ， 如 图 8-6 所 示 。 


在 图 8-6 中 ， 我 们 可 以 看 到 整 棵 树 的 根 是 app 对 象 ， 通 过 app._router.stack， 我 们 可 以 访问 树 的 第 一 级 分 又 ， 也 就 是 stack 数 组 ， 这 些 分 又 是 我 们 通过 Express 的 API 注 册 上 去 的 。 stack 数 组 中 存储 的 是 代 
表 URL 层 级 关系 的 Layer 对 象 。Layer 对 象 有 两 种 ， 一 种 是 对 应 于 叶子 节点 的 Layer， 另 一 种 是 对 应 于 中 间 节 点 的 Layer， 它 们 之 间 的 区 别 在 于 是 否 有 route 这 一 项 ， 有 这 一 项 的 就 是 叶子 节点 ，Layer 对 象 的 
handle 存 储 了 响应 函数 。 在 叶子 节点 的 route 项 中 ， 可 以 找到 我 们 所 需要 的 HTTP 方 法 与 URL 路 径 。 对 于 中 间 层 的 Layer 对 象 ， 在 handle 项 中 ， 我 们 能 够 找到 一 个 stack 项 ， 这 就 是 这 一 Layer 层 对 应 的 子 树 的 
路 口 。 通 过 人 遍历 子 树 ， 我 们 就 能 够 找到 所 有 微服 务 的 URL。 每 个 Layer 对 象 还 包括 一 个 regex 项 ， 里 面 存储 的 是 当前 这 一 层 对 应 的 URL 正 则 表达 式 比 配 ， 用 于 快速 匹配 与 路 由 URL。 在 Express 中 ， 我 们 通过 使 
用 以 下 代码 来 产生 与 连接 上 面 这 棵 树 ， 这 些 代码 片段 可 以 在 前 面 的 数据 库 微 服务 以 及 接 下 来 的 遍历 URL 的 例子 中 找到 具体 的 实际 使 用 : 


Express 对 象 


Express 根 路 由 对 象 Ne 


每 个 顶层 URL 都 有 


Express Layer 对 象 数 组 AL 对 象 
一 个 Laver X 


app.use 


包含 Route stack[0] stack[1] stack[2] stack[3] stack[...] 
对 象 ， 是 一 
T URL N 不 包含 Route 


的 叶子 节点 C ees 对 象 ， 是 一 个 


一 ^y =/A ? | 
/ servic / nee URL 树 的 中 间 
eV?$8/i (2=/|$) /i 节点 


path="service" 

提取 HTPP 路 径 

与 方法 stack[0] method="get" stack[0] stack[1] stack[...] 
继续 递归 遍历 URL 树 


8-6 Express URL 树 


SEE E function (req, res) {}) // 通 过 app.get, 将 /service 这 个 URI 挂 载 到 
//URL 树 的 第 一 层级 上 ， 并 在 HTTP L 
router.post (' nt doc', function(req, res) 
// 通 过 router.post oe doc 这 个 URI 挂 载 到 某 一 irn L 
p.use('/db', rout 


apy 
7/WORL-EH VER STL X 层级 的 /db 上 ， 因 此 数据 访问 的 完整 URL 是 /db/query/ :doc 


通过 图 8-6， 我 们 有 了 对 Express 核 心 数据 结构 app._router 的 理解 ， 编 写 程序 遍历 这 一 结构 来 提取 我 们 所 需要 的 URL 实 现 服务 发 现 就 变 得 十 分 容易 了 。 以 下 是 遍历 URL 树 的 JavaScript 代 码 : 


function service discover (urlstack, basebath) { 
var table = [] 
for (var key in urlstack) { 
if (urlstack. E { 
var val = urlstack[key 
if (val.route) { L ama EA, 提取 URL 和 HTTP 方 法 
val = val.route; 
var url = {}; 
url[val.stack[0].method] = basebath + val.path; 
// 获 取 服 务 的 方法 、 服 务 的 ur1，ur1 需 要 使 用 pasepath 与 path 拼接 而 成 
table.push(url);  // 将 结果 添加 到 table 中 


else if (val.handle.stack) { 
var stack = val.handle.stack // 获 得 中 间 层 的 栈 
K path = "/" + 
//val.regexp.toString() .match (/\\\/(.*)\\.*/m) [1] 
// 处 理 basepath， 由 于 在 中 间 层 中 没有 Path 字段， 我 们 需要 通过 regexp5 es 
/ /来 恢复 我 们 所 需要 的 对 应 于 这 一 级 路 由 的 basepath 
table.push (service_discover (stack, path)) // 递 归 人 遍历 中 间 层 
} 
} 


} 
return table 
} 
app.get('/service', function (req, res) { 
// 挂 载 /service URL， 响 应 服务 发 现 的 HTTP 请 求 
Var urlstack = app. router.stack 
// 获 得 Express 的 整个 路 由 URL 树 ， 整 棵 树 以 栈 的 形式 来 存储 
res.json (service discover (urlstack，"/") ) // 遍 历 整个 树 获得 所 有 的 服务 接口 
We 


对 应 于 前 面 的 数据 库 微服 务 ， 上 面 的 程序 会 为 我 们 提取 到 这 样 的 服务 发 现 结果 


"/db/update/:doc"}, 
"post": "/db/query/:doc"}, 
"delete": "/db/remove/:doc"} 


l, 


读者 如 果 仍 然 不 能 很 清晰 地 理解 服务 发 现 过程 ， 那 么 读者 可 以 使 用 第 2 章 提 到 的 Visual Studio Code 来 单 步调 试 这 部 分 代码 。 同 时 ， 读 者 可 以 结合 第 3 章 有 关 ZooKeeper 服 务 发 现 的 机 制 ， 将 其 与 上 面 物 
联网 网 关 的 服务 发 现 程序 相 结合 ， 实 现 物 联网 整个 网 络 的 服务 发 现 来 加 强 与 加 深 对 服务 发 现 的 理解 。 


8.3.6 RSK EER 


本 节 我 们 将 重点 转移 到 物 联网 所 特有 的 一 些 需求 上 来 ， 着 重 研究 如 何 利用 Node.js 来 满足 这 些 物 联网 特有 的 需求 。 首 先 ， 再 次 回顾 第 3 章 的 内 容 ， 物 联网 常用 通信 协议 包括 MQTT、CoAP、HTTP 
等 ，Arduinojs 是 基于 HTTP 协 议 开 发 的 ， 因 此 物 联网 支持 HTTP 协 议 是 没有 问题 的 。 接 下 来 我 们 通过 实际 的 微服 务 例子 来 看 一 下 在 物 联 网 网 关 Arduino.js 中 ， 我 们 如 何 实现 HTTP 协 议 到 MQTT 协 议 的 转换 : 


module.exports = function (app, logger, express, event) { 
// 注 入 了 事件 循环 event， 在 接收 数据 时 使 用 事件 循环 来 管理 消息 
logger.info('module mgtt'); 
Var router = E Router ( 
var mqtt = require('mqtt'); We 引入 maqtt 库 
var client = null; 
router.post ('"/client/connect', function(req, res) { //RESTful API 发 起 MOTT 连 接 


var link = req.body. link; //link 参 数 是 要 连接 的 MOTT 服 务 器 
client = mqtt.connect (link); / /连接 MQTT 服 务 器 
client.on('connect', function() { // 连 接 成 功 的 回调 函数 


logger.info("server is connected") ; 
he 
client.on('message', function(topic, message) { 
// 接 收 MOTT 服务 器 上 的 消息 
event.emit('mgtt', {topic: ara message :message}) ; 
// 将 消息 发 送 到 事件 循环 中 ， 待 进一步 处 理 
logger.info (message.toString() ) 7 
EHH 
res.json({ 
message: "matt client connect' 
he 
he 
router.post ('"/client/end', function(req, res) { //RestAPI 关闭 MOTT 连 接 
client.end(); 
res.json({ 
message: 'mqtt client end' 
he 
he 
router.post ('/client/subscribe', function(req, res) { //REST£ulAPI 订阅 一 个 话 
// 题 ， 由 于 MOTT 基 于 发 布 /订阅 模式 ， 只 有 订阅 了 消息 ， 才 会 收 到 相应 消息 的 数据 
Var name = req.body.name; 
client.subscribe (name) ; 
res.json({ 
message: 'mgtt client subscribe ok' 
he 
he 
router.post ('/client/publish', function(req, res) { 
// RESTfulAPI 向 服务 器 推送 消息 
Var name = req.body.name; 
var message = req.body.message; 
client.publish(name, message) ; 
res.json({ 
message: 'mgtt client publish ok' 
he 
Ds 
app.use('/mqtt', router); 


mo 


以 上 的 微服 务 完成 了 HTTP 协 议 到 MQTT 协 议 的 转换 ， 协 议 的 转换 是 物 联网 网 关 经 常 遇 到 的 问题 。 有 关 对 其 他 协议 的 支持 ， 限 于 篇 幅 这 里 不 再 展开 ， 读 者 可 以 根据 第 3 章 的 内 容 自己 实现 ， 有 兴趣 的 读者 
也 可 以 参阅 《自己 动手 设计 物 联网 》 以 及 其 对 应 的 开源 项 目 https://github.com/phodal/lan。 其 中 实现 了 一 个 能 够 同时 支持 COAP、WebSocket、MQTT、HTTP 的 物 联网 服务 器 系统 。 


8.3.7 ”硬件 访问 


ny 


在 物 联 网 领域 ， 除 了 对 特有 的 物 联 网 协议 的 支持 之 外 ， 另 一 个 特别 重要 的 需求 是 如 何 实现 物 联 网 系统 的 硬件 访问 。 由 于 物 联网 系统 面 对 的 是 真实 世界 ， 为 应 对 真实 世界 的 各 种 不 同 需求 ， 物 联网 系统 会 
安装 各 种 不 同 的 设备 ， 如 温度 传感器 、 气 体 传感器 、 电 动 马 达 等 ， 而 如 何 使 用 javasScript 来 访问 这 些 设备 资源 ， 特 别 是 在 网 关节 点 上 FPGA 内 部 的 资源 ， 是 Nodejjs 物 联网 系统 非常 重要 的 关键 点 。 接 下 来 我 
们 探索 如 何 使 用 JavaScript 通 过 跨 语言 的 调用 访问 物 联 网 硬件 ， 在 这 里 为 了 简化 没有 使 用 FFI 库 而 是 直接 使 用 了 Nodejjs 的 C++ 扩展 功能 ， 在 C++ 代码 中 访问 硬件 ， 以 下 是 FPGA 微 服务 的 代码 片段 : 


module.exports = function(app, logger) { 

var fpga = require ('http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17567/OEBPS/Text/.././build/Release/openfpgaduino') ; 
// 添 加 C++ PEKE, 所 有 的 C++ 对 象 的 方法 被 绑 定 到 了 JavaScript 对 象 fpga 上 

var express = require('express') ; 

var router = express.Router(); 

router.post ('/api/call/:method', function(req, res) { 
//RestAPI 调用 C++ 方法 访问 FPGRA 硬 件 资源 


var method = req.params.method; // 调 用 的 方法 
var paramter = req.body; // 调 用 的 参数 列表 
// 调 用 返回 值 
a _ open ( // 打 开 FPGA 人 硬件 系统 ， 在 Linux 中 ， 所 有 硬件 被 抽 


SIE Eet 也 不 wa | 外 ， anken arrea HE 
switch (paramter.length) { // 根 据 调用 参数 的 长 度 ， 确 定 调用 哪个 函数 接口 ， 由 于 
// 这 里 将 C++ 的 函数 绑 定 到 了 JavaSscript 中 ， 而 C++ 并 不 支持 JavaScript 的 变 长 参数 模式 。 这 里 我 们 
// 最 大 支持 8 个 参数 ， 参 数 仅 支 持 基本 类 型 ， 对 于 硬件 的 访问 来 说 是 足够 了 
case 0: 
ret = fpga[method] (); 
break; 
case 1: 
ret = fpga [method] (paramter[0]); 
break; 
case 2: 
ret = fpga[method] (paramter[0], paramter[1]); 
break; 
case 3: 
ret = fpga[method] (paramter[0], paramter[1], paramter[2]); 
break; 
case 4: 
ret = fpga[method] (paramter[0], paramter[1], paramter[2], 
paramter[3]); 
break; 
case 5: 
ret = fpga[method] (paramter[0], paramter[1], paramter[2], 
paramter[3], paramter[4]); 
break; 
case 6: 
ret = fpga[method] (paramter[0], paramter[1], paramter[2], 
paramter[3], paramter[4 paramter[5]); 
break; 
case 7: 
ret = fpga[method] (paramter[0], paramter[1], paramter[2], 
paramter[3], paramter[4 paramter[5 paramter[6]); 
break; 
case 8: 
ret = fpga[method] (paramter[0], paramter[1], paramter[2], 
paramter[3], paramter[4], paramter[5], paramter[6], paramter[7]); 
break; 
default: 
logger.error ("too manay arguments"); 


T 
logger.info("method is " + method) ; 
res.json (ret); 
fpga.fpga_close(); 
he 
app.use('/fpga', router); //#RestFul API 挂 载 到 fpga URLE 


上 面 的 JavaScript 代 码 并 没有 十 分 特殊 的 地 方 ， 真 正 的 硬件 访问 的 核心 部 分 在 C++ 代码 的 片段 中 。 在 代码 中 ， 我 们 在 C+ + 中 模拟 了 反射 机 制 ， 这 样 就 能 够 实现 在 JavaScript 调 用 中 动态 找到 JavaScript 方 


法 对 应 的 C 函 数 ， 大 大 提高 了 硬件 访问 程序 的 灵活 性 ， 使 得 其 扩展 新 的 硬件 访问 接口 变 得 非常 容易 : 


#define BUILDING NODE EXTENSION 
#include <string> 
#include <sstream> 
#include <map> 
#include <node.h> 
#include <openfpgaduino.h> // 访 问 openfpgaduino 硬 件 的 C 函 数 API 头 文件 
using namespace v8; 
using namespace std; 
#tdefine DEFINE FUNCTION HANDLE (fun name) // 定 义 要 挂 载 到 fpga 对 象 上 的 函数 
Handle<Value> fun_name##_agent (const Rrguments& args) {return 
agent (#fun_name, args) ;} // 所 有 的 挂 载 函 数 最 终 调用 agent 函 数 来 实现 对 硬件 的 访问 ， 这 
// 样 当 添 加 新 的 硬件 访问 函数 时 ，JavaScript 代 码 与 Cr 代码 主题 都 无须 修改 就 能 使 用 
#define GET FUNCTION HANDLE (fun name) 
fun name## agent 
#define DEFINE FUNCTION (ret, function,arg) 
{#ret, #function, Lar (void*) function, GET FUNCTION HANDLE (function)} 
E Ugi R ERREA SR, 包含 函数 名 字 、 参 数列 表 、 返 回 值 、 函 数 调用 地 址 ，C++ 
// 程 序 通过 这 个 表 在 运行 时 找到 fpga 对 象 上 的 绑 定 函数 的 函数 位 置 。 这 里 模拟 了 轻 量 的 反射 机 制 ， 可 以 通过 // 函 数 名 字 来 定位 具体 的 程序 地 址 与 参数 
typedef struct Lable t { 
string return_type; 
string name; ~ 
string arg_list; 
void* addr; 
Handle<Value> (*call) (const Argumentsé) ; 
} fun table: 
fun_table TABLE NULL = { "", "", "", NULL, NULL }; // 作 为 函数 符号 表 的 结束 位 置 
extern fun table table[]; 
// 为 实现 反射 机 制 ， 我 们 需要 知道 函数 的 参数 的 个 数 ， 这 里 的 函数 就 是 通过 文本 解析 获得 参数 个 数 ， 
// 回 想 前 面 依赖 注入 的 部 分 中 如 何 解析 需要 注入 的 参数 ， 两 者 类 似 
int parser func arg count (string arg_list) { 
int 1i=1; 7 — 
const char* arg = arg list.c_str(); 
if (arg_list.length() == 0) ~ 


G 


return 0: 

while (Yard != '\0') { 
if (xarg == ',') itt; 
arg++; 

T 

return i; 


T 
// 定 义 调用 的 fpga 对 象 上 函数 方法 的 原型 ， 每 个 原型 根据 参数 的 不 同 定义 
#define REGISTER int 
#define MAX ARGC 8 
#define ARG(x) (arg[x]) 
#define ARGO 
#define ARG1 ARG(0) 
#define ARG2 ARG1, ARG(1) 
#define ARG3 ARG2, ARG(2) 
#define ARG4 ARG3, ARG(3) 
#define ARGS ARG4, ARG(4) 
#define ARG6 ARGS, ARG(5) 
#define ARG7 ARG6, ARG(6) 
#define ARG8 ARG7, ARG(7) 
typedef int (*FUNCO) (void); 
typedef int ( (REGISTER) ; 
typedef int ( (REGISTER, REGISTER) ; 
typedef int (*FUNC3) (REGISTER, REGISTER, REGISTER) ; 
typedef int ( (REGISTER, REGISTER, REGISTER, REGISTER) ; 
typedef int ( (REGISTER, REGISTER, REGISTER, REGISTER, REGISTER) ; 
( 
) 
( 


> 
6 
C 


typedef int (*FUNC6) (REGISTER, REGISTER, REGISTER, REGISTER, REGISTER, 


typedef int (*FUNC7) (REGISTER, REGISTER, REGISTER, REGISTER, REGISTER, 
REGISTER, REGISTER) ; 
typedef int (*FUNC8) (REGISTER, REGISTER, REGISTER, REGISTER, REGISTER, 
REGISTER, REGISTER, REGISTER) ; 
//fpga 对 象 挂 载 函 数 的 统一 代理 函数 ， 在 运行 反射 机 制 ， 根 据 不 同 的 函数 名 以 及 调用 的 参数 不 
// 同 ， 在 函数 符号 表 中 找到 对 应 的 C 函 数 ， 完 E 的 函数 调用 工作 
Handle<Value> agent (string name, const Arguments& args) { 
HandleScope scope; // 用 于 存储 返回 值 的 JavaScript 作 用 域 
fun_table* table p = table; // 函 数 符号 表 
void* func address = NULL; 
int argc; 
REGISTER ret = 0; 
REGISTER arg [MAX ARGC]; 
for (int i=0; i< argc; i++) 
arg[i] = args[i]->NumberValue () ; 
switch (argc) { // 根 据 函数 参数 不 同 分 别处 理 
case 0: 
ret = ((FUNCO) func address) (ARGO) ; 
break; 
case 1: 
ret = ((FUNC1) func address) (ARG1) ; 
break; = 
case 2: 
ret = ((FUNC2) func_address) (ARG2) ; 
break; S 
case 3: 
ret = ((FUNC3) func_address) (ARG3) ; 
break; 
case 4: 
ret = ((FUNC4) func address) (ARG4) ; 
break; = 
case B: 
ret = ((FUNC5) func address) (ARG5) ; 
break; S 
case 6: 
ret = ((FUNC6) func_address) (ARG6) ; 
break; 
case 7: 
ret = ((FUNC7) func_address) (ARG7) ; 
break; > 
case 8: 
ret = ((FUNC8) func address) (ARG8) ; 
break; a 
default: 
break; 


} 
Local < Number > num = Number: :New (ret) ; 
return scope.Close(num); // 返 回 ET 


} 
// 声 明 fpga 对 象 上 的 函数 构造 
DEFINE FUNCTION HANDLE (led) ; 
DEFINE FUNCTION HANDLE (fpga_open) ; 
DEFINE FUNCTION HANDLE fpga close); 
DEFINE | | FUNCTION 1 HANDLE am2301_temperature) ; 
DEFINE FUNCTION HANDLE (am2301 moisture) ; 
DEFINE FUNCTION HANDLE (steering) ; 
DEFINE FUNCTION HANDLE (stepmotor_init) ; 
DEFINE FUNCTION HANDLE (stepmotor) ; 
// 函 数 符号 表 ， 用 于 在 Javascript 方 法 被 调用 使 用 反射 机 制 ， 通过 函数 名 查询 到 相应 的 C 函 数 
fun table table[] = { 
DEFINE_FUNCTION (void, led, (int id, char r, char g, char b)), 
DEFINE FUNCTION (int, fpga_open,), 
DEFINE FUNCTION (void, fpga_close,), 
DEFINE FUNCTION (float, am2301_ temperature, (int id)), 
( 
( 
( 


DEFINE FUNCTION (float, am2301_moisture, (int id)), 
DEFINE FUNCTION void, steering, (int id, int angle)), 
DEFINE FUNCTION (void, stepmotor init, (int id, unsigned int frequence, 
J unsigned int duty_cycle, unsigned int delay) ), 
DEFINE FUNCTION (void, stepmotor, (int id, int forward back, int step)), 
TABLE NULL ~ 
T: 
void Init (Handle<Object> exports) { 
fun_table* Lable p = table; 
while (table_p != sTABLE NULL) { 


exports->Set (String: :NewSymbol (table p->name.c str()), 
FunctionTemplate: :New (table_p- >call) ->GetFunction ()); 
table p++; 
//Add spetial case function whose parameter is not number 


T 
NODE MODULE (openfpgaduino, Init) 


83.8 ”硬件 仿真 


j 面 我 们 研究 了 如 何 使 


ay 


度 。 


在 微服 务 架 构 的 基础 上 实现 OpenFPGAduino 硬 件 仿真 变 得 十 分 容易 ， 我 们 需要 做 的 就 是 将 访问 硬件 的 微服 务 替 换 成 硬件 仿真 的 微服 务 ， 整 个 过 程 中 其 他 微服 务 不 会 


中 实现 微服 务 蔡 换 过 程 的 代码 片段 如 下 所 示 : 


Nodejs 的 C++ 扩 展 功 能 来 实现 硬件 的 访问 ， 但 是 在 开发 过 程 中 ， 我 们 并 不 需要 4 


序 对 硬件 的 依赖 ， 实 现 即 使 没有 硬件 多 个 开发 者 间 也 可 以 完成 协同 开发 ， 而 且 可 以 将 开发 与 调试 环境 合 二 为 一 而 不 是 使 


经 常 访问 硬件 ， 很 多 时 候 我 们 更 希望 有 一 个 硬件 的 仿真 环境 来 加 速 开发 。 这 样 不 仅 可 以 减少 程 


分 离 的 远程 调试 模式 ， 同 时 又 能 够 模拟 硬件 的 一 些 行为 ， 极 大 提高 软件 的 开发 速 


觉察 到 任何 的 变化 。 在 Arduino.js 


if (argv.sim) { 开关 ， 当 以 --sim 参 数 运行 程序 时 开启 
var mock = loadDir(config.mock_path) ; eae 改 服务 的 路 径 
loadmodule (mock) ; As asic 


var map = new Map (module) . filter (function (value, index) 
for (v in mock) {  // 对 标准 的 微服 务 模块 进行 过 滤 ， n AW Pet SRSA RUN 
if (index == v) { 
logger.info ("Replace real module " + v + " with mockup"); 
return false; 
i 
} 
return true; 
Ds 
module = map.toArray () 
loadmodule (module) ; 
} else { 
loadmodule (module) ; 


” // 加 载 别 除 了 仿真 模块 后 剩余 的 微服 务 模块 


// 正 常 模式 下 加 载 所 有 标准 的 微服 务 模块 
} 


在 上 面 的 程序 中 ， 我 们 实现 了 对 硬件 微服 务 模块 的 替换 ， 使 


仿真 微服 务 来 模拟 原来 硬件 微服 务 的 功能 。 在 Arduinojs 项 目 中， 我 们 通过 如 下 


命令 来 将 整个 项 目 切 换 到 仿真 模式 下 运行 


$ node server.js --sim 


在 Arduino.js 项 目 中 ， 所 有 的 仿真 微服 务 位 于 ut/mock/ 


录 下 ， 我 们 以 fpga 微 服务 的 仿真 为 例 来 学 习 一 下 仿真 模块 设计 的 部 分 代码 ， 完 整 代码 请 到 Arduino.js 项 目 查 看 : 


module .exports = function (app, logger, express) { 
var router = express.Router (); 
var fpga = new Object; // 创 建 仿真 fpga 对 象 ， 为 对 象 添加 仿真 的 方法 
fpga.led = function(id, r, b, g) { // 仿 真 LED 设 备 
logger.info("led on"); 
fpga.add = 
return 


function(a, b) { 

(a + b) 

T: 

fpga.fpga_open = function() { 
logger.info("open fpga") 

Mi 

fpga.fpga_close = function() { 
logger.info("open fpga") 


fpga.am2301 temperature = function ( 
// 仿 真 温度 传感器 ， 返 回 仿真 值 ， 蔡 代 真 lalu 
return 21.7 
T: 
fpga.am2301 moisture = function () 
RIR S. 返回 仿真 值 ， RAABE 
return 81.7 
T: 
router.post ("/api/call/:method', function (req, 
// 处 理 RESTful API 调用 ， 这 里 的 代码 与 页 正 的 得 件 访 癌 代 码 二 le. 这 里 省 略 部 分 用 不 到 的 代码 ， 
// 读 者 到 Arduino.js 中 查看 完整 的 仿真 代码 
var method = req.params.method; 
var paramter = req.body; 
var ret; 
fpga.fpga_open(); 
switch (paramter.length) { 
case 0: 
ret = fpga [method] () 
break; 
case 1: 
ret = fpga [method] (paramter[0]); 
break; 
case 2: 
ret = fpga[method] (paramter[0], paramter[1]); 
break; 
default: 
logger.error ("too manay arguments"); 


E 
E 


logger.info("method is " + method) ; 
res. json (ret); // 返 回调 用 返回 值 
fpga.fpga_close(); 


); 
app.use('/fpga', router); 


8.3.9 ”Mocha 集 成 测试 


测试 驱动 开发 (Test-Driven Development, TDD) 是 一 种 软件 开发 过 程 中 的 应 F 
设计 和 功能 的 实现 ，@ 驱 动 代码 的 再 设计 和 重 构 B]。 


方法 ， 由 极限 编程 倡导 ， 以 其 倡导 先 写 测试 程序 、 后 编码 实现 其 功能 得 名 。 测 试 驱动 着 整个 开发 过 程 : 


@ 驱 动 代码 的 


为 加 快 物 联网 系统 的 开发 ， 前 面 我 们 已 经 实现 了 硬件 环境 的 仿真 执行 ， 进 一 步 


地 利 


试 框架 。Mocha 测 试 框架 的 特点 是 简单 ， 可 伸缩 性 强 ， 易 于 学 习 ， 可 以 胜任 从 单元 测试 、 
测试 可 以 分 成 两 部 分 : 一 部 分 是 测试 前 的 准备 工作 以 及 测试 后 的 清理 工作 ; 另 一 部 分 是 测试 的 主体 ， 由 一 个 


before (function (done) { 
//Mocha 保 证 before 在 所 有 测试 开始 前 执行 ， 通 常 这 里 放 的 是 测试 的 准备 工作 
tcpPortUsed.check (8080, 'localhost') 
.then (function (inUse) { 
if (!inUse) { 
child = fork('./server', ['--sim']); // 启 动 Arduino.js 服 务 器 
setTimeout (function() { 
done (); 
}，5000);  // 延 时 5 秒 等 待 服务 启动 完成 
} else { 
done (); 


集成 测试 环境 ， 我 们 可 以 将 物 联 网 应 


的 开发 效率 与 质量 再 提升 一 个 层次 。 在 这 里 我 们 为 Arduino.js 选 择 Mocha 测 


微服 务 测试 到 集成 的 端 到 端 测试 的 任何 测试 场景 。 接 下 来 我 们 学 习 一 下 用 Mocha 来 测试 Arduinojs。 一 个 Mocha 
个 测试 断言 组 成 。 首 先 我 们 来 看 看 测试 的 准备 工作 : 


}, function(err) { 
console.error('Error on check:', err.message) ; 
H: 
T: 


接着 我 们 以 一 个 测试 案例 来 学 习 测试 的 断言 部 分 ， 这 里 我 们 以 数据 库 微服 务 的 测试 断言 为 例 。 这 里 我 们 使 用 简易 HTTP 请 求 库 request: 


describe ('Arduino.js'，function() { // 定 义 测试 案例 的 名 字 
eE db', function() { 人 
t('list doc', function (done) 
"Te HR 个 测试 用 例 ， bilist doc 测 试 
(Tike ("/db/list", function(error, response, body) { 


起 HTTPGET 请 求 
(!error && response.statusCode == 200) { 
console. log (body) ; 
done () : // 调 用 done 回 调 ， 测 试 完成 

} else { 
assert (0); ”// 调 用 断言 ， 表 明 测 试 失败 
done (); 


} 
Ds 


T: 
it('add doc', function(done) { // 测 试 添加 文档 
request ({ // 发 起 HTTP POST 请 求 ， 并 附带 json 的 消息 体 
headers: { 
"Connection": "close" 
F 
url: '/db/add/test', 
method: 'POST', 
json: true, 


body: { 
ae i, 
b: 2 
}, function(error, response, body) { 
if (!error && response.statusCode == 200) { 
console. log (body) ; 
} else { 


assert (0); 
T 
done () ; 
E Ds 
it('verfiy doc'，function (done) { // 对 插入 的 文档 进行 验证 
request ("/db/list/test", function(error, response, body) { 
if (!error && response.statusCode == 200) { 
console. log (body) ; 
var data = JSON.parse (body) 
assert.equal(data[0].a, 1); // 调 用 断言 检测 读 取 数据 是 否 正确 
assert.equal(data[0].b, 2); 
done (); 
} else { 
assert (0); 
done (); 


以 上 是 Arduino.js 数 据 库 功能 端 到 端的 测试 用 例 ， 在 这 里 我 们 只 列 出 了 部 分 的 测试 用 例 ， 读 者 可 以 到 项 目的 GitHub 网 页 上 查看 完整 的 测试 用 例 ， 参 照 端 到 端的 测试 用 例 ， 构 建 简单 的 单元 测 就 没有 任何 
难度 了 ， 这 个 可 以 自己 去 尝试 。 通 过 运行 如 下 命令 可 以 在 Arduino.js 项 目 中 运行 Mocha 测 试 ， 在 测试 过 程 中 Arduino.js 运 行 于 仿真 模式 。 


$ npm test 


[1] 引用 https://zhuanlan.zhihu.com/p/25249664。 


四 拓展 阅读 https://zh.wikipedia.org/wiki/ 控制 反 转 。 
[3] 引用 https:/ /zh.wikipedia.org/wiki/ 测 试 驱动 开发 。 


9.2” 物 联网 云 服 务 


件 都 是 在 云 环境 中 部 署 的 ， 而 更 重要 的 是 作为 物 联网 开发 的 重要 环节 ， 物 联网 的 集成 开发 环境 也 开始 向 云端 迈进 ， 大 量 物 联 网 云 开 发 环境 如 雨后春笋 般 冒 出 来 。 


持 图 


由 于 在 成 本 上 与 易 用 性 上 ， 云 服务 相对 于 传统 的 软件 都 有 压倒 性 的 优势 ， 因 此 在 云 服务 普及 的 今天 ， 几 乎 所 有 的 传统 软件 也 开始 向 云 服 务 迁 移 ， 而 物 联网 也 受到 了 影响 ， 目 前 几乎 所 有 的 物 联网 管理 软 


[四 


形 化 编程 并 能 够 对 物 联网 传感器 数据 进行 可 视 化 ， ee ae D E 


9-4 给 出 一 个 比较 流行 的 云 开发 环境 ， 其 支 
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Print on screen Hello from Wyliodrin 


console.log("Hello from kyliodrin’); 


Variables 


ISON 
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al(loopCode, 1062); 


Language 
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Text 
Screen and keyboard 
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图 9-4” 物 联网 云 开发 环境 


同样 流行 的 还 有 各 种 云 服务 厂商 的 loT 套 件 ， 图 9-5 是 微软 的 Azure loT 套 件 。 首 先 物 联网 节点 的 数据 通过 广域网 传输 到 物 联网 汇聚 点 (loT Hub) 中 ， 然 后 数据 可 以 被 发 布 到 Web 或 APP 中 进行 展示 ， 也 
可 以 发 送 到 存储 设备 (Storage blobs) 中 进行 存储 。 同 样 数据 可 以 被 发 送 到 流 处 理 引擎 (Stream Analytics) 中 进行 分 析 ， 分 析 结果 可 以 存 到 存储 设备 中 ， 也 可 以 发 送 到 事件 汇聚 点 (Event Hub) 做 一 些 
基于 事件 响应 的 处 理 ， 事 件 响应 可 以 驱动 网 页 任务 (Web Jobs) 引擎 做 一 些 批量 的 数据 汇总 分 析 ， 这 些 结果 最 终 会 存 入 文档 数据 库 (DocumentsDB) 或 者 传 给 业务 逻辑 (Logic APPs) 做 进化 一 步 分 析 。 
在 整个 Azure loT 方 案 中 ， 活 动 目录 (Active Directory) 提供 了 对 安全 认证 的 支持 ， 而 Power BI 提供 了 数据 可 视 化 能 力 。 


如 果 比 较 第 4 章 的 内 容 ， 我 们 可 以 发 现 上 面 的 设计 几乎 可 以 利用 Lambda 架 构 来 实现 ， 因 此 利用 第 4 章 的 技术 ， 我 们 完全 可 以 使 用 Javascript 搭 建 一 个 完整 的 云 服务 ， 在 第 11 章 中 ， 我 们 将 构建 自己 的 大 
数据 私有 云 服务 。 更 进一步 ， 就 如 我 们 在 第 8 章 看 到 的 ， 我 们 甚至 可 以 在 物 联网 节点 上 部 署 私 有 云 环境 ， 运 行 各 种 微服 务 ， 这 样 将 节点 私有 云 和 物 联网 公有 云 相 结合 就 形成 了 一 个 大 的 物 联网 混合 云 ， 将 整个 
物 联网 的 功能 去 化， 这 也 在 一 定 程度 上 印证 了 物 联网 的 对 称 性 。 


套件 远程 监控 解决 方案 


Web/Mobile APP 


| Storage blobs Document-DB 


PY 


loT Hub Stream Analytics Event Hub Web Jobs Logic APPs 


Azure 
Active Directory 


图 9-5 Azure IoT 云 服务 


在 物 联网 云 服务 中 ， 比 较 著名 的 且 开 发 比较 早 的 服务 是 Yeelink 物 联网 云 服 务 。Yeelink 物 联网 云 平 台 提供 统一 的 物 联网 数据 服务 接口 ， 家 庭 设备 可 将 采集 的 数据 通过 接口 上 传 ， 通 过 数据 模型 形式 存 
储 ， 可 预 设 规则 执行 触发 动作 ， 实 现 特定 事件 监测 和 预警 。 平 台 还 提供 可 定制 的 数据 可 视 化 界面 ， 以 图 表 形 式 呈 现 动态 变化 的 家 庭 物 联网 数据 。 


对 于 物 联网 ， 特 别 是 家 庭 物 联网 来 说 ， 一 个 很 重要 的 需求 是 能 够 直接 远程 访问 家 里 的 物 联网 设备 并 对 其 实施 控制 ， 但 是 由 于 中 国 IP 地 址 的 匮乏 ， 通 常 不 可 能 给 每 一 个 物 联网 设备 分 配 公 网 IP 地 址 ， 其 至 
都 无 法 做 到 一 个 家 庭 拥 有 一 个 公 网 IP 地 址 ， 运 营 商 会 使 用 NAT 技 术 只 为 每 个 家 庭 上 网 用 户 分 配 内 网 地 址 ， 而 许多 家 庭 共享 一 个 公 网 地 址 ， 这 就 造成 了 一 个 问题 户 无 法 直接 实现 通过 IP 地 址 来 定位 与 访 


问 家 中 的 物 联网 设备 。 为 克服 这 样 的 问题 ， 我 们 需要 使 用 一 些 隧道 技术 ， 通 过 在 NAT 网 络 上 开启 一 个 隧道 来 实现 外 网 与 内 网 设备 之 问 的 通信 。 下 面 我 们 以 Arduinojs 项 目 中 的 tunnel 微 服务 为 例 理 解 和 学 习 
如 何 使 用 LocalTunnel 云 服务 构建 基于 HTTP 的 隧道 技术 ， 通 常 要 穿越 NAT 或 者 防火 墙 HTTP 隧 道 技术 是 一 个 不 错 的 选择 : 


module.exports = function(app, express, logger, port) 
var localtunnel = require('localtunnel');  // 添 加 localtunnel 包 
var router = express.Router (); 
logger.info('module tunnel'); 
router.get ('/open', function(req, res) { 
var tunnel = localtunnel (Port，function (err, tunnel) {// 调 用 localtunne1 创 // 建 基于 HTTP 的 tunnel,port 是 本 地 HTTP 服 务 的 端口 ,回调 函数 中 的 tunnel 对 象 代表 创建 // 的 隧道 
if (err) logger.error ("Error") 
logger.info("Tunnel url " + tunnel.url) 
res.json ({ 
url: tunnel.url // 返 回 创建 出 来 的 tunnel 的 外 网 访问 URIL 地 址 , URL 由 前 
// 面 的 随机 字符 串 与 localtunnel .me 组 成 ， 例 如 https://abcdefgjhij. 
//localtunnel .me 
Ds 
BE 
tunnel.on ('error'，function () { // 响 应 隧道 错误 事件 
// tunnels are error 
logger.info("Tunnel error") 


HI 

tunnel.on('close', function() { // 响 应 隧道 关闭 事件 
// tunnels are closed 
logger.info("Tunnel closed") 


he 


app.use('/tunnel', router); 


T 


localtunnel 利 用 了 DNS 解析 过 程 中 从 后 向 前 一 级 一 级 解析 的 原理 ， 保 证 了 所 有 的 访问 localtunnel.me 的 报 文 都 会 被 转发 到 一 个 指定 服务 器 ， 服 务 器 首先 解析 发 出 的 HTTP 请 求 ， 获 得 URL 中 作为 随机 字 
符 串 的 部 分 ， 然 后 通过 对 应 的 隧道 转发 HTTP 请 求 到 物 联网 设备 上 。 


9.3 ”基于 HTML 的 嵌入 式 软件 开发 环境 


有 了 前 面 介绍 的 物 联网 云 服务 以 及 通用 云 服务 ， 为 OpenFPGAduino 设 计 相 应 的 云 环境 就 很 方便 了 ， 特 别 是 有 了 LocalTunnel 服 务 以 后 ,我们 只 需要 设计 基本 的 HTTP 服 务 就 能 够 实现 直接 将 内 网 物 联网 
服务 转换 成 物 联网 云 服 务 。 下 面 我 们 来 学 习 如 何 实现 一 个 基于 HTML 的 物 联网 软件 开发 集成 环境 。 图 9-6 给 出 了 笔者 设计 的 物 联网 C 语 言 云 开 发 环境 。 


在 图 形 编程 环境 中 ， 网 页 从 上 到 下 分 成 四 部 分 : 第 一 部 分 由 一 排 按钮 组 成 ， 包 括 保存 当前 程序 、 运 行当 前 程序 、 停 止 当前 程序 、 查 询 C 语 言 API 函 数 、 重 启 整个 网 关 以 及 对 网 关 进 行 配置 ; 第 二 部 分 是 一 
个 在 线 的 C 语 言 编辑 器 ， 并 带 有 语法 功能 ; 第 三 部 分 显示 当前 保存 的 程序 ， 单 击 按钮 可 以 调 出 已 经 保存 的 程序 ， 而 长 按 按钮 可 以 删除 保存 的 程序 ;第 四 部 分 包含 了 两 个 信息 窗口 ， 分 别 显示 在 编译 过 程 中 的 
错误 信息 以 及 程序 的 运行 输出 。 
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图 9-6” 物 联网 C 语 言 云 开 发 环境 


由 于 物 联网 开发 长 期 要 与 硬件 设备 打交道 ， 因 此 不 可 避免 要 使 用 C 语 言 来 开发 一 些 硬件 访问 程序 ， 而 由 于 C 语 言 是 一 种 编译 语言 ， 因 此 要 开发 C 语 言 就 要 有 一 定 的 编译 与 执行 环境 。 通 常 来 说 ， 准 备 开发 
环境 是 嵌入 式 开发 中 非常 痛苦 的 部 分 。 为 了 解决 这 样 的 痛 点 ， 我 们 为 OpenFPGAduino 开 发 了 基于 HTML 的 云 环境 ， 用 户 可 以 直接 通过 网 页 来 进行 嵌入 式 开发 ， 而 无 须 准备 烦琐 的 开发 环境 。 整 个 开发 程序 
由 一 个 HTML 网 页 与 单个 Node.js 程 序 组 成 ， 结 构 十 分 简单 ， 限 于 篇 幅 就 不 详细 介绍 其 中 的 开发 代码 了 ， 有 兴趣 的 读者 可 以 从 GitHub 下 载 源 代码 来 学 习 ， 其 中 只 是 用 了 Node.js 标 准 库 提供 的 功能 ， 几 乎 没有 
使 用 任何 第 三 方 的 库 来 开发 ， 读 者 可 以 利用 其 复习 与 研究 Node.js 的 基本 功能 。 


94 ”基于 Blockly 的 云 软件 开发 环境 


除了 C 语 言 云 环境 以 外 ， 为 了 降低 使 用 OpenFPGAduino 物 联网 网 关 的 难度 ， 笔 者 仿造 wyliodrin 云 服务 为 其 开发 了 基于 图 形 化 编程 的 云 环 境 ， 只 需要 像 搭 积木 一 样 搭 出 一 个 程序 的 流程 图 就 能 够 很 


方便 地 控制 物 联网 网 关 OpenFPGAduino。 
2012 年 6 月 ，Google 发 布 了 完全 可 视 化 的 编程 语言 Google Blockly， 类 似 MIT 的 儿童 编程 语言 Scratch ， 你 可 以 通过 类 似 玩 乐高 玩具 的 方式 用 一 块 块 图形 对 象 构建 出 应 用 程序 。 每 个 图 形 对 象 都 是 代码 
块 ， 你 可 以 将 它们 拼接 起 来 ， 创 造 出 简单 功能 ， 然 后 将 一 个 个 简单 功能 组 合 起 来 ， 构 建 出 一 个 程序 。 整 个 过 程 只 需要 鼠标 的 拖 钨 ， 不 需要 键盘 熟 击 [1]。 
琶 形 化 编程 已 经 是 中 小 学 教育 中 非常 流行 的 编程 教育 模式 ， 比 较 著名 的 Scratch 就 使 用 这 种 图 形 模式 来 教 小 学 生 编 写 程序 ， 因 此 有 了 图 形 化 编程 模式 的 云 环境 ， 甚 至 小 学 生 也 能 够 玩 转 OpenFPGAduino 
这 个 物 联网 云 平台 。 图 9-7 给 出 了 物 联网 图 形 编程 环境 ， 其 就 是 基于 Google 开 发 的 Blockly 开 源 Javascript 图 形 编程 开发 环境 。 
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图 9-7 物 联 网 图 形 编程 环境 
色 9-7 中 的 编程 环境 包含 以 下 功能 : 保存 程序 、 运 行程 序 、 语 言 切换 、 程 序 编写 、 图 形 绘制 错误 信息 与 日 志 输出 。 我 们 重点 来 讲 讲 Blockly 内 部 的 编程 区 域 。 在 Blockly 内 部 ， 用 户 可 以 通过 列表 选择 所 需 


要 的 程序 块 ， 像 搭 积木 一 样 将 它们 拼接 成 所 需要 的 程序 。 读 者 也 可 以 到 笔者 提供 的 网 站 上 体验 其 动态 版 本 : http://openfpgaduino.github.io/blocklyide。 


整个 Blockly 基 于 网 页 JavaScript 技 术 ， 完 全 不 需要 服务 器 参与 就 能 实现 所 有 的 编程 功能 。 


为 了 将 Blockly 与 物 联网 开发 环境 进行 对 接 ， 我 们 首先 要 做 以 下 几 件 事 。 


首先 ， 需 要 在 物 联网 网 关上 提供 HTTP 静 态 网 页 服务 器 的 支持 。 


Bx, 实现 Blockly 与 物 联网 硬件 的 通信 ， 
Arduinojjs 作 为 物 联 网 服务 器 的 后 端 


TA. 


， 以 完成 与 使 用 Blockly 作 为 


由 于 我 们 在 Arduinojjs 中 采用 了 基 了 


形 编 程 环境 的 前 端 进行 对 接 。 


图 


为 了 使 Blockly 支 持 物 联网 网 关 的 硬件 ， 我 们 需 ， 


T'S 


户 拖 外 这 些 程序 块 来 完成 程序 编写 ， 然 


JD: 


序 块 。 接 下 来 我 们 以 温度 读 取 程序 块 来 学 习 如 何 从 网 关 读 取 数据 


Restful API 的 微服 务 设计 模式 ， 任 何 对 网 关节 点 硬件 的 访 


Blockly 以 使 其 能 够 通过 Restful APl 来 访问 硬件 。Blockly 作 为 


问 都 可 以 被 包装 成 一 个 HTTP 的 Restful 请 求 ， 


因此 我 们 使 


后 所 有 的 程序 块 会 被 归 类 到 Blockly 左 边 的 程序 列表 中 。 在 


首先 我 人 


] 来 看 一 下 如 何 扩展 Blockly 的 程序 块 ， 


使 其 支持 读 取 物 联网 网 关上 温度 传感器 的 读数 : 


LED 色 彩 控制 程序 来 学 习 如 何 控制 物 


图 形 编程 环境 提供 了 用 户 自 由 扩展 编程 块 的 能 力 ， 每 个 编程 块 是 一 个 独立 的 基本 单 
图 9-7 中 ， 我 们 扩展 了 一 个 叫 OpenFPGAduino 的 表 项 ， 其 中 包含 了 所 有 为 物 联网 网 关 扩 展 出 来 的 程 
联网 设备 ， 最 后 以 舵 机 控制 程序 块 实现 机 械 手 控制 。 


Blockly.Blocks['temperature'] = { 
init: function() { 
this .appendDummyInput () 


// 声 明 一 


-个 叫 temperature 的 程 序 块 
// 以 下 开始 E T, 


台 构 


声明 一 个 占 


名 字 
块 名 的 区 域 ， 这 里 使 用 // 了 变量 Blockly .Msg .TEMP_SENSOR, 根据 所 选 语言 的 不 同 , 变量 


.appendField (Blockly.Msg.TEMP SENSOR) ; We 个 显 会 赋予 不 同 值 
appendValueInput ("ID") // 添 加 一 外 输入 变量 ID， 我 们 的 网 关 支 持 许多 传 感 
MET 我 们 给 pig ee ID, en Ea 
.setCheck ("Number") 设置 输入 检查 , 以 确保 输入 的 是 数字 
-appendField ("ID"); EZ 个 显示 为 TD 的 区 域 
this.setInputsInline (true) ; // 设 置 程序 块 是 一 个 单行 输入 
this.setOutput (true, "Number") ; Wess 
this.setColour (260) ; 
this.setTooltip(''); J Heie 的 提示 文字 
this.setHelpUrl ("http://openfpgaduino.github.io/'); // 设 置 帮助 网 页 
} 
T: 
Blockly. JavaScript ['temperature'] = function (block) { 
// 定 义 程序 块 真正 产生 的 源 代 码 
var id = Blockly.JavaScript.valueToCode (block, 'ID', Blockly.JavaScript .ORDER_ATOMIC) ; 
// 获 取 程 OE E 
var code = "Bytes2Float32 (ajax Post ('/fpga/api/call/am2301_temperature', ["+ id+"]))" // 发 起 AJAX 请 求 调用 相应 的 RestAPI 接 口 访问 网 关上 的 硬件 ， 


// 请 求 的 URL 是 /fpga/api/call/am2301 temperature josn 的 参数 是 [id] 
return [code, Blockly.JavaScript.ORDER NONE]; 


9-8 是 上 面 的 JavaScript 程 序 生 成 的 程序 块 


形 ， 读 者 对 照 程 序 可 以 很 容易 理解 JavaScript 代 码 与 


图 | 


形 的 对 应 关系 。 


图 9-8 温度 程序 块 


学 习 了 温度 程序 块 这 个 输出 模块 ， 我 们 再 来 学 习 一 下 LED 控 制 这 个 控制 模块 : 


Blockly.Blocks['rgb led'] = { // 声 明 一 个 叫 rgb_led 的 程序 块 
init: function() { 

this. appendDummyInput () 

-appendField ("LED") ; // 模 块 名 字 LED 

this .appendDummyInput () 
.appendField (new Blockly.FieldDropdown ([["F0", "0"], ["E1", "1"], 
// 添 加 一 个 下 拉 菜 单 , 可 选 值 是 E0、F1、F2、F3, 将 对 应 被 选 值 放 入 1ed 项 中 
["F2", "2"], ["E3", "3"]]), "led") 


this.appendValueInput ("r") // 添 加 一 个 输入 变量 上 
.SetCheck ("Number") 
.appendField (Blockly.Msg.LED R) 
this.appendValueInput ("g") // 添 加 一 外 输入 变量 g 
.SetCheck ("Number") 
.appendField (Blockly.Msg.LED G) 
this.appendValueInput ("b") N 个 给 入 交 量 b 
.SetCheck ("Number") 
.appendField (Blockly.Msg.LED B); 
this.setInputsTnline (true) ; // 程 序 块 为 单行 输入 
// 添 加 与 前 一 个 程序 块 的 连接 点 ， 即 图 9- 9 中 的 程序 块 前 端 目下 去 的 部 分 
this.setPreviousStatement (true, null); 
// 添 加 与 后 一 个 程序 块 的 连接 点 , 即 图 9-9 中 程序 KR HORIN 分 
this.setNextStatement (true, null); 
this.setColour (260) 7 
this.setTooltip(''); 
this.setHelpUrl (http: //openfpgaduino.github.io/') 
T 
T: 
Blockly.JavaScript['"rgb led'] = function (block) 
var led = block. getFieldvalue ("led") ; ; JARAT Fe 
var r = Blockly.JavaScript.valueToCode(this, ' 
// 获 得 的 输入 ,也 就 是 LED 的 红色 输入 ， ARETOA SARA 255 
Blockly.JavaScript.ORDER_ASSIGNMENT) || '255'; 
var g = Blockly. JavaScript. valueToCode (this, 'g', 
// 获 得 g 的 输入 ,也 就 是 绿色 输入 
Blockly.JavaScript.ORDER_ASSIGNMENT) || '255'; 
var b = Blockly.JavaScript.valueToCode(this, 'b', 
// 获 得 b 的 输入 也 就 是 蓝 色 输 入 
Blockly.JavaScript.ORDER ASSIGNMENT) || '255'; 
var code = S 
// 生 成 JavaScript 程 序 ,程序 使 用 post 请 求 向 网 关 发 送 命令 ,命令 的 json 参 数 为 [led, b, g, r] 
"ajax post ('/fpga/api/call/led', ["+tled+','+ b +", '+g+", '+r+"]);\n" 
return code; 


T: 


图 9-9 LED 程 序 块 


网 


9-9 是 上 面 的 JavaScript 程 序 生成 的 程序 块 图 形 ， 读 者 对 照 程序 可 以 很 容易 地 理解 JavaScript 代 码 与 图 形 的 对 应 关系 。 完 成 了 两 类 基本 模块 的 设计 ， 接 下 来 以 机 械 手 控制 作为 一 个 综合 例子 来 展示 基于 
Blockly 的 云 软件 开发 环境 。 


9-10 是 机 械 手 ， 整 个 机 械 手 使 用 舵 机 来 进行 控制 ， 机 械 手 的 每 个 轴 都 由 一 个 舵 机 控制 其 旋转 的 角度 。 读 者 可 以 在 网 上 观看 在 线 演示 动 
Hj: http://openfpgaduino.github.io/docs/the_demo/robot arm.html。 


The Robot Arm Demo 


This section will show you how to control a robot arm through BlocklyIDE 


图 9-10 PRF 


为 控制 机 械 手 的 动作 ， 我 们 首先 要 控制 舵 机 的 运动 ， 接 下 来 我 们 看 一 下 舵 机 控制 的 程序 块 代码 : 


Blockly.Blocks['steering'] = { // 声 明 一 个 叫 steering 的 程序 块 
init: function() { 
this .appendDummyInput () 

.appendField(Blockly.Msg.STEERING) ; 
this.appendValueInput ("ID") ”// 添 加 ID 变 量 

.SetCheck ("Number") 

.appendField ("ID"); 
this.appendDummyInput () 

.appendField (new Blockly.FieldAngle (90), "angle"); 

// 添 加 一 个 角度 项 angle, 设置 角度 默认 90, 见 图 9-11 
this.setPreviousStatement (true, null); // 添 加 与 前 一 个 程序 块 的 连接 点 
this.setNextStatement (true, null); // 添 加 与 后 一 个 程序 块 的 连接 点 
this.setInputsInline (true) ; 
this.setColour (260) ; 
this.setTooltip(''); 
this.setHelpUrl ('"http://openfpgaduino.github.io/'); 

} 
hi 
Blockly.JavaScript['steering'] = function (block) { 

var angle = block.getFieldValue('angle'); 

var id = Blockly.JavaScript.valueToCode (block, 'ID', 
Blockly. JavaScript .ORDER ATOMIC) ; 

var code = = 

"ajax_post ('/fpga/api/call/steering', ["tid+','+ angle+"]);\n" 
// 生 成 JavaScript 程 序 ,程序 使 用 post 发 送 json 数 据 [id, angle] 到 物 联 网 网 关 

return code; 


i 


[ 


利用 上 面 生成 的 程序 块 ， 我 们 就 能 够 实现 机 械 手 的 控制 了 ， 完 整 的 程序 如 


9-11 所 示 。 
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图 9-11 ”机械 手 控制 程序 
[由 扩展 阅读 https://wapbaike.baidu.com/item/Blockly。 


9.8 ”基于 听 云 物 联网 运 维 服务 


前 面 已 经 给 大 家 展示 了 许多 物 联网 开发 、 物 联网 控制 与 物 联网 数据 可 视 化 的 云 服务 了 ， 在 本 章 的 最 后 ， 我 们 来 学 习 一 下 如 何 使 用 云 服 务 来 实现 物 联网 的 运 维 。 在 物 联网 开发 完成 正式 上 线 后 ， 由 于 物 联 
网 的 特殊 性 ， 我 们 在 开发 阶段 的 测试 难免 有 各 种 各 样 的 丝 漏 ， 因 此 有 必要 使 用 一 套 运 维 技术 来 对 物 联网 进行 实时 监控 ， 及 时 发 现 软件 的 缺陷 与 性 能 的 问题 ， 通 过 日 志 来 快速 定位 与 解决 问题 。 这 里 我 们 以 听 
云 为 例 实现 物 联网 的 云 运 维 。 我 们 几乎 不 需要 做 太 多 就 能 构建 一 个 完整 的 物 联 网 运 维 方案 。 首 先 在 我 们 的 Nodejs 物 联网 项 目 Arduinojs 中 添加 听 云 的 包 : 


$ npm install tingyun 


接着 在 我 们 的 项 目 主 程序 中 添加 听 云 : 


require ('tingyun'); 


然后 我 们 在 项 目 根 目录 添加 听 云 的 配置 文件 tingyunjson: 


{ 
"agent log level": "info", 
"app name": [ 
"nodejs" 
l]; 
"licenseKey": "13b2a66330d1f85e2afd084e3af0bdle" 
T 


经 过 这 几 个 步骤 ， 我 们 就 完成 了 听 云 的 全 部 设置 ， 接 着 就 可 以 运行 物 联网 程序 并 在 听 云 的 仪表 板 上 查看 所 有 的 性 能 指标 以 及 事件 告警 ， 当 有 告警 发 生 时 ， 听 云 会 第 一 时 间 通 过 邮件 通知 运 维 工程 师 。 图 
9-17 所 示 是 听 云 仪表 板 。 
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A9-17 HALAH 


在 听 云 仪表 板 中 ， 我 们 可 以 观察 的 指标 包括 应 用 服务 响应 时 间 、 最 耗 时 事务 、 知 吐 率 、Apdex、 应 用 CPU 使 用 率 、 应 用 内 存 使 用 量 等 反映 程序 当前 运行 状态 与 性 能 的 各 种 指标 。 通 过 听 云 仪表 板 ， 基 本 
可 以 完成 对 物 联网 节点 运行 情况 的 监控 与 运 维 。 在 第 11 章 中 ， 我 们 将 自己 动手 建立 起 自己 的 物 联网 大 数据 日 志 分 析 平台 ， 实 现 听 云 与 大 数据 日 志平 台 运 维 将 不 再 是 一 件 困难 的 事情 。 


9.9 本章 小 结 


在 本 章 中 ， 我 们 首先 介绍 了 云 计 算 与 云 服务 的 概念 ， 详 细 介绍 了 云 计 算 中 的 核心 技术 ， 包 括 虚拟 化 技术 以 及 容器 技术 。 在 容器 化 技术 中 ， 我 们 着 重 讲解 了 如 何 使 用 Docker 来 构建 、 使 用 与 发 布 自己 的 容 
器 镜像 。 接 着 我 们 把 主要 的 精力 放 在 了 如 何 使 用 云 服务 特别 是 免费 的 云 服务 来 支撑 我 们 以 OpenFPGAduino 物 联网 智能 网 关 为 节点 的 整个 物 联网 的 完整 生命 周期 。 首 先 ， 我 们 使 用 LocalTunnel 在 内 网 与 外 
网 间 构 建 一 个 隧道 ， 实 现 外 网 直接 访问 OpenFPGAduino 上 的 物 联网 服务 。 构 建 起 内 外 网 隧道 后 ， 我 们 开发 了 基于 HTML 技 术 的 物 联网 云 开 发 环境 ， 包 括 C 语 言 的 环境 以 及 Blockly 图 形 化 的 编程 环境 ， 用 户 
仅 需 要 一 个 浏览 器 就 能 完成 物 联网 智能 网 关 的 程序 开发 。 有 了 软件 的 云 开 发 环境 ， 我 们 依靠 容器 化 技术 以 及 云 存储 技术 为 智能 网 关 的 FPGA 云 设计 环境 ， 这 样 利 用 云 环境 ， 用 户 无 须 任何 配置 与 开发 环境 就 实 
现 了 对 网 关 的 全 面 定制 设计 。 完 成 了 整个 云 开 发 与 设计 环境 ， 进 一 步 地 ， 我 们 将 注意 力 集中 在 利用 云 服务 实现 物 联 网 的 应 用 上 ， 通 过 Yeelink 云 实现 了 对 物 联网 网 关 的 控制 ， 通 过 Plot.ly 实 现 了 对 物 联 网 数据 
的 交互 展示 。 最 后 ， 我 们 讨论 了 如 何 使 用 听 云 服务 实现 物 联网 的 运 维 管理 ， 实 时 监控 物 联网 性 能 。 


第 10 章 ” 物 联 网 生物 芯片 实验 测试 系统 


前 面 两 章 ， 我 们 围绕 着 OpenFPGAduino 这 一 智能 网 关 详 细 介 绍 了 其 设计 的 核心 思想 以 及 许多 核心 的 设计 细节 ， 包 括 我 们 使 用 FPGA 来 处 理 实时 任务 ， 使 用 CPU 来 处 理 物 联网 协议 ,使 用 Nodejs 实 现 物 
联网 网 关 的 网 络 系统 ， 包 括 使 用 微服 务 以 及 依赖 注入 等 技术 。 另 外 ， 我 们 依托 云 计 算 技 术 为 OpenFPGAduino 打 造 了 一 个 完整 的 云 开 发 平台 ， 其 中 包括 C 语 言 的 开发 以 及 图 形 化 编程 开发 环境 ， 更 有 实用 容 
器 化 技术 的 FPGA 云 设计 工具 。 通 过 以 上 这 些 技术 的 深入 分 析 ， 我们 围绕 OpenFPGAduino 打 造 了 一 个 物 联网 的 完整 生态 系统 。 有 了 生态 系统 ， 接 下 来 需要 的 是 真正 的 应 用 与 产品 。 在 本 章 中 ， 我 们 将 重点 集 
中 到 物 联网 的 应 用 上 ， 通 过 对 物 联网 生物 芯片 实验 测试 平台 的 介绍 与 分 析 ， 以 物 联网 应 用 系统 实例 加 深 我 们 对 物 联网 系统 设计 的 理解 。 


10.3 平台 电源 与 机 箱 系统 设计 


有 了 生物 芯片 测试 平台 的 需求 应 用 场景 以 及 总 体 设计 思路 ， 接 下 来 就 是 对 整个 平台 的 分 系统 进行 设计 与 实现 。 所 有 系统 的 基础 就 是 电源 系统 与 机 箱 系统 ， 必 须 首先 根据 设计 需要 完成 这 两 个 系统 ， 其 他 
系统 的 调试 设计 工作 才能 展开 ， 接 下 来 我 们 首先 讨论 这 两 个 系统 的 设计 。 


1. 电 源 系 统 的 设计 


对 于 电源 系统 的 设计 ， 由 于 测试 平台 的 设计 涉及 的 功能 部 件 与 系统 众多 ， 各 功能 部 件 与 系统 对 电源 的 需求 不 同 ， 需 要 设计 一 个 电源 管理 系统 ， 负 责 给 各 个 功能 模块 提供 稳定 的 电源 。 需 要 提供 电源 管理 
的 模块 有 主 控 板 、 超 声 雾 化 器 /加 湿 器 、 半 导体 加 热 制冷 器 、 风 扇 、 电 机 、 注 射 泵 、 图 像 模 块 、 动 态 光 散 射 模块 等 。 这 些 模块 需要 的 电压 范围 各 不 相同 ， 有 12V 的 需要 ， 也 有 5V 的 需要 ; 电流 方面 ， 有 为 半 导 
体制 冷 器 提供 大 功率 输出 的 需要 ， 也 有 为 信号 处 理 模块 提供 相对 稳定 低 噪声 的 需要 。 为 了 满足 设计 需要 ， 同 时 减少 设计 上 所 花 的 时 间 ， 我 们 选择 使 用 现成 的 电源 模块 设计 ， 采 用 PC 电源 作为 基础 ， 对 : 
一 些小 小 的 改造 来 完成 上 面 的 需要 。 计 算 机 电源 既 能 够 提供 超过 300W 的 功率 输出 以 满足 测试 系统 的 需要 ， 同 时 又 提供 了 多 路 隔离 的 包括 12V 与 5V 在 内 的 电压 输入 ， 保 证 了 电源 之 间 的 隔离 以 及 稳定 。 
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2. 机 箱 系统 的 设计 


对 于 机 箱 的 设计 ， 为 保证 控制 平台 工作 的 稳定 性 和 安全 性 ， 需 设计 一 个 机 箱 ， 将 各 模块 固定 其 中 。 机 箱 设计 方面 需 重点 考虑 以 下 几 点 要 求 : 各 模块 固定 的 稳定 性 、 干 燥 盒 的 设计 与 安装 、 多 条 试剂 管线 
的 排 布 和 安装 、 按 键 和 显示 器 的 设计 与 安装 。 考 虑 到 这 个 机 箱 需要 承担 两 个 不 同 的 任务 ， 一 个 任务 是 提供 一 个 恒温 、 恒 湿 的 实验 环境 ， 另 一 个 任务 是 固定 各 个 系统 ， 为 电源 以 及 控制 板 提供 良好 的 散热 。 这 
两 个 功能 之 间 存 在 一 定 的 冲突 ， 因 此 放弃 了 在 概念 图 中 使 用 的 一 体 化 机 箱 设计 ， 而 是 采用 两 个 分 体 机 箱 来 完成 两 个 相互 冲突 的 任务 。 其 中 一 个 机 箱 称 为 工作 机 箱 ， 用 于 安装 生物 芯片 测试 平台 ， 包 括 三 轴 高 
精度 定位 平台 、 显 微 镜 、 温 湿度 控制 平台 等 ; 另 一 个 机 箱 称 为 控制 机 箱 ， 用 于 安装 电源 、 核 心 控制 板 、LCD 状 态 显示 组 件 、 温 度 控制 水 循环 系统 中 的 风扇 散热 部 分 ， 以 及 加 湿 器 。 控 制 机 箱 放置 了 
OpenFPGAduino 的 改进 版 本 ， 作 为 物 联网 生物 芯片 实验 系统 的 控制 核心 。 相 对 于 普通 版 的 OpenFPGAduino， 这 里 所 做 的 改进 是 减少 了 一 些 无 用 的 接口 ， 包 括 音频 接口 及 SD 卡 接口 ， 扩 展 了 可 编程 MO 接 
口 以 满足 整个 测试 平台 大 量 I/O 控 制 单 元 的 需求 。 两 个 机 箱 之 间 设 计 了 传输 电信 号 与 功率 输出 的 连接 电缆 、 提 供 温度 控制 系统 冷却 水 循环 的 管道 ， 以 及 传输 加 湿 器 水 蒸气 输出 的 加 湿 管 道 等 。 通 过 管道 连接 在 
一 起 的 两 个 机 箱 就 组 成 了 一 个 完整 的 生物 芯片 的 测试 平台 ， 如 图 10-2 所 示 。 


组 成 : 工作 机 箱 + 控制 机 箱 
工作 机 箱包 含 : 必 片 台 、 三 轴 定 位 、 显 微 镜 等 功能 部 件 
控制 机 箱包 含 : 控制 中 心 、 显 示 、 水 循环 、 加 湿 带 每 辅助 部 件 


图 10-2 ”生物 芯片 测试 平台 


在 图 10-2 中 ， 左 边 是 工作 机 箱 ， 右 边 是 控制 机 箱 。 工 作 机 箱 设计 了 上 下 开 合 的 大 门 ， 用 于 放置 与 取出 生物 芯片 。 控 制 机 箱 设计 了 左右 开 合 的 大 门 ， 


需要 的 循环 水 。 


于 放置 加 湿 器 所 需 


的 纯洁 水 以 及 温度 控制 系统 所 


控制 机 箱 还 提供 了 液晶 显示 屏 与 控制 键盘 按钮 用 于 实验 员 进 行 手工 控制 ， 以 及 显示 系统 的 信息 (包括 IP 地 址 以 及 运行 状态 ) ， 机 箱 的 顶部 设计 了 紧急 停止 按钮 ， 方 便 在 发 生 紧急 情况 与 事故 时 立即 切断 


控制 电源 以 保障 安全 。 


10.5 “实验 试剂 注射 进 样 系统 设计 


研究 完 控 温 控 湿度 平台 系统 ， 接 下 来 我 们 对 实验 试剂 注射 进 样 系统 设计 进行 研究 。 在 生物 芯片 
蛋白 质 反 应 区 进行 分 批 分 次 进 样 。 为 满足 设计 思想 ， 需 要 设计 以 下 主要 配件 来 满足 平台 设计 需求 。 


应 (如 蛋 


1) 注射 泵 : 通过 改装 成 品 的 注射 泵 ， 为 加 样 提 供 动力 。 改 装 时 需要 设计 电路 和 驱动 设备 。 采 


2) 进 样 固定 装置 : 由 于 该 项 目 要 求实 现 试剂 分 批 分 次 进 样 ， 且 进 样 位 置 需要 固定 ， 因 此 对 输送 试剂 的 管线 和 注射 针头 要 设计 专门 的 固定 装置 ， 固 定 装置 的 主 


针头 的 花 盘 ， 以 及 对 试剂 的 管线 施加 压力 进 样 的 辅助 装置 等 。 


分 体式 注射 汞 ， 提 高 设计 和 操作 的 灵活 性 和 可 扩展 性 。 


质 结晶 ) 过 程 中 ， 需 要 对 不 同 的 样品 进行 试剂 进 样 注入 ， 设 计 上 采用 一 个 进 样 系统 对 不 同 的 


3) 进 样 装置 的 移动 和 定位 : 由 于 项 目 需要 实现 对 不 同样 品 的 分 次 进 样 ， 固 定 针头 的 花 盘 结构 要 求 可 以 移动 ， 并 能 自动 对 准 用 于 加 注 的 进 样 孔 。 


部 件 包括 


于 固定 管线 的 拖 链 结构 、 固 定 


对 于 进 样 装置 的 移动 与 定位 ， 我 们 采用 进 样 注射 针头 与 显微镜 平行 的 设计 方法 ， 采 用 高 精度 移动 台 来 完成 进 样 移动 与 定位 工作 。 这 里 我 们 先 来 看 一 下 注射 泵 的 控制 与 设计 。 注 射 泵 进 样 系统 如 图 10-5 所 


示 。 


10-5 ”注射 泵 进 样 系统 


在 实验 试剂 注射 进 样 系统 的 设计 中 ， 我 们 采用 改装 现成 注射 泵 的 方法 ， 注 射 泵 的 性 能 指标 如 下 : 


- 最 大 行程 : 90mm; 


. 行程 分 辩 率 : 0.165um; 


- 线 速 度 调节 分 辨 率 : 7.94um/min; 


“ 额定 线性 推力 : >90N; 


+ 可 适 配 2~60mL 多 种 规格 的 注射 器 。 


注射 泵 的 推进 控制 系统 采用 步 进 电动 机 实现 ， 由 步 进 电动 机 驱动 一 个 螺杆 来 推动 注射 器 向 前 进 样 ， 同 时 注射 泵 提供 了 光电 码 盘 来 实现 对 注射 泵 当前 位 置 的 测量 ， 并 提供 了 限 位 控制 器 以 保护 注射 泵 超过 
最 大 行程 。 对 于 步 进 电动 机 的 实时 控制 信号 的 产生 ， 我 们 使 用 FPGA 来 完成 这 部 分 工作 ; 步 进 电动 机 的 位 置 控制 在 Node.js 中 完成 ;注射 泵 进 样 的 量 由 中 心计 算 机 通过 物 联 网 下 发 到 测试 平台 上 。 步 进 电 动机 
的 JavaScript 控 制 代码 如 下 所 示 : 


function syringe forward step (step) // 注 射 泵 向 前 移动 step 步 
{ 

var i; 

for(i = 0; i < step; i++) 

{ 


step_motor move step forward (STEP MOTOR); ”// 注 射 泵 向 前 移动 一 步 _ 
if (syringe stuck check() ) // 注 射 汞 边 是 否 已 经 运 到 端点 
return (step); // 返 回 实 


T 
return (step); 
T 
function syringe back step (step) // 注 射 泵 向 后 移动 step 步 
{ 
var i; 
for(i = 0; i < step; i++) 
{ 
Step motor move step back (STEP MOTOR); // 注 射 泵 向 后 移动 一 步 
if (syringe_stuck_check () ) 
return (step); 
} 
return (step); 
T 
function syringe_run forward(syringe target)  ”// 注 射 泵 向 前 运行 到 给 定位 置 
{ 
var i=0; 
var position = get_position(POSITITON_SENSNOR); // 获 取 注 射 器 当前 位 置 
console.log("syringe_target = %d\n", syringe Lardet): 
while(position > syringe target) { // 循 环 执行 直到 达到 目标 位 置 
console.log("position = %d\n", position) ; 
step_motor_move_step_forward(STEP_MOTOR) ; 
if (get position (POSITITON SENSNOR) == position) { 
// 若 运行 前 后 位 置 没 有 变化 ,说明 发 生 了 卡 壳 
itt; 
if(i > STUCK_STEP) ”// 当 尝试 STUCK_STEP 步 后 放弃 ,以 保护 设备 
return (0); 


} else { 


} 
position = get_position(POSITITON_SENSNOR); // 记 录 当 前 位 置 
f 
console.log ("position = %d\n", position); 
return (1); 
T 
function syringe run back (syringe target) 
/ (ESS REA Ie AT BEE AL, SEARS FA is TB 
{ 
var i=0; 
var position = get_position(POSITITON_SENSNOR) ; 
console. log("syringe_target = %d\n", syringe Lardet): 
while (position > syringe_target) { 
console.log("position = %d\n", position) ; 
step_motor_move_step_back (STEP_MOTOR) ; 
if (get_position(POSITITON_SENSNOR) == position) { 
i++; 


if(i > STUCK_STEP) 
return (0); 
} else { 
i= 0; 
T 
position = get position (POSITITON_SENSNOR) ; 


console.log("position = %d\n", position) ; 
return (1); 


10.7 “显微镜 图 像 监控 系统 设计 


完成 了 高 精度 三 轴 移 动 定位 系统 的 设计 ， 接 下 来 要 关注 的 是 安装 在 其 上 的 显微镜 图 像 监控 系统 的 设计 。 整 个 显微镜 图 像 监控 系统 由 以 下 几 个 模块 组 成 。 


1) 镜头 : 选用 显 微 光 学 镜头 实现 高 放大 倍率 。 


2) CCD 及 接口 电路 : 为 CCD 设 计 接口 电路 并 将 CCD 获 取 的 图 像 信号 通过 物 联 网 直接 传输 至 系统 控制 中 心 。 


3) 辅助 光源 : 要 获取 清晰 明亮 的 图 像 ， 箱 内 要 设计 一 个 照明 源 ， 电 源 亮度 可 调 ， 这 里 选择 大 功率 LED 灯 作为 辅助 光源 。 


4) 固定 装置 : 镜头 、CCD 和 辅助 光源 需要 稳定 和 合理 的 固定 才能 获得 良好 的 图 像 。 


完成 了 系统 的 选 型 后 ， 在 设计 过 程 中 ， 我 们 直接 选择 了 成 品 的 数字 显微镜 ， 并 将 图 像 直 接 传输 到 中 心计 算 机 ， 数 据 在 整个 过 程 中 并 不 经 过 OpenFPGAduino， 因 此 在 Nodejs 上 并 没有 任何 显微镜 系统 相 
关 Javascript 代 码 。 我 们 在 中 心计 算 机 可 以 使 用 第 5 章 提 到 的 机 器 学 习 技 术 进行 图 像 识 别 等 数据 处 理 等 工作 。 限 于 当时 设计 需求 并 不 包含 这 样 的 要 求 ， 没 有 做 进一步 的 开发 。 


10.8 物 联网 实验 自动 化 控制 系统 设计 


和 面 完成 了 对 物 联 网 生物 芯片 实验 测试 系统 所 有 功能 性 分 系统 的 设计 研究 ， 接 下 来 我 们 将 注意 力 集中 到 整套 平台 的 自动 化 控制 系统 上 。 自 动 化 控制 系统 包括 两 部 分 : 一 部 分 位 于 控制 机 箱 
(OpenFPGAduino 控 制 板 及 其 上 运行 的 软件 ) ; 另 一 部 分 是 运行 于 控制 中 心 的 PC 软件 。 


my 


(1) 控制 机 箱 中 的 部 分 


1) 显示 和 输入 装置 : 选择 4.3 英 寸 彩色 液晶 屏 作为 该 平台 的 显示 装置 。 和 矩阵 式 按键 作为 输入 装置 ， 用 来 手动 设 定 控制 平台 的 工作 参数 。 


2) 主 控 电路 板 : 设计 主 控 电 路 完成 液晶 显示 器 、 按 键 、 电 动机 、 超 声 雾 化 器 、 传 感 器 等 部 件 的 连接 ;提供 与 PC 连接 的 太 网 接口 ， 用 于 实现 物 联网 连接 ， 选 用 经 过 扩展 的 OpenFPGAduino。 


3) 驱动 软件 : 编写 驱动 软件 ， 包 括 电动 机 驱动 、 显 示 驱 动 、 超 声 雾 化 器 和 注射 泵 控制 程序 、 温 湿度 控制 程序 ， 主 要 驱动 软件 使 用 C 语 言 实现 ， 算 法 使 用 Javascript 在 Nodejs 中 实现 。 


(2) 运行 于 控制 中 心 的 PC 软件 


该 软件 包含 以 下 部 分 功能 : 控制 平台 运行 状态 的 显示 (RE, ME SRS) ， 能 够 显示 CCD 采 集 到 的 图 像 ， 并 具有 拍照 捕捉 、 保 存 图 像 的 功能 ， 能 够 设置 控制 平台 的 工作 参数 ， 软 件 采用 HTML 应 
开发 技术 开发 ， 后 根据 用 户 需要 采用 C# 开 发 了 最 终 的 版 本 。 


我 们 已 经 在 前 面 的 章节 中 全 面 覆盖 了 驱动 软件 中 Nodejjs 的 开发 部 分 ， 接 下 来 我 们 来 看 一 看 控制 中 心 PC 软 件 的 具体 功能 与 一 些 实现 细节 。 主 控 电 路 板 与 控制 中 心 之 间 采 用 以 太 网 连接 ， 之 间 采 用 HTTP 协 
议 进行 数据 的 交换 与 传输 。 主 控 电 路 板 上 运行 Arduinojs 网 关 软 件 ， 作 为 HTTP 的 服务 器 端 ，PC 端 做 控制 中 心 ， 作 为 客户 端 来 访问 平台 上 的 服务 端 ， 每 一 条 控制 中 心 发 往 主 控 电 路 板 的 命令 都 是 一 条 HTTP 请 
求 ， 这 样 我 们 就 完成 了 控制 中 心 到 实验 平台 的 控制 通道 的 搭建 ， 而 图 像 数据 通过 单独 的 通道 直接 传输 到 控制 中 心 主机 上 。 建 立 了 控制 通道 ， 接 下 来 我 们 来 研究 一 下 PC 端 实现 了 哪些 功能 。 


如 图 10-8 所 示 ， 在 软件 的 登录 界面 ， 考 虑 到 物 联网 安全 ， 设 备 上 设置 了 登录 用 户 名 与 密码 。 只 有 填写 对 应 的 用 户 名 与 密码 ， 通 过 了 控制 平台 的 验证 才能 对 平台 进行 控制 。 由 于 网 络 上 可 能 存在 多 个 物 联 


网 生物 芯片 实验 测试 系统 ， 这 里 需要 输入 IP 地 址 来 选择 控制 哪 台 设 备 。 在 登录 软件 之 后 ， 我 们 进入 工作 界面 ， 界 面 上 有 三 个 选项 上 不 ,分 别 是 工作 簿 选项 卡 (Workspqce) 、 设 置 选项 卡 (Setting) 以 及 校准 
选项 卡 (Ajustment) ， 接 下 来 我 们 就 看 看 这 些 选项 卡 的 功能 。 


MT 


Protein Crystallization Detector 


User Name : Ax... 


Pass Word : 输入 文字 .. 


Ip Address : 输入 . 输入 . 输入 . 输入 


V//eterol 


| connect | 


图 10-8 ”生物 芯片 测试 平台 登录 界面 


工作 短 选 项 卡 〈 见 图 10-9) 包含 一 张 表格 ,表格 的 每 一 行 代表 了 生物 芯片 的 一 个 反应 腔 。 在 表格 中 ， 
动 注入 ， 系 统 就 会 控制 实验 测试 系统 在 给 定 间 隔 时 间 为 反应 腔 自动 注入 对 应 剂量 的 液体 。 同 时 在 表格 中 ， 


我 们 可 以 填写 需要 注入 到 反应 腔 的 反应 试剂 的 量 ， 


以 及 选择 是 手工 注入 还 是 自动 注入 。 如 果 选 择 自 


我 们 可 以 为 反应 腔 指定 名 字 ， 以 及 填写 是 否 已 经 结晶 与 结晶 的 直径 大 小 。 


设置 选项 卡 〈 见 图 10-10) 提供 了 对 设置 的 保存 与 加 载 功 能 ， 方 便 用 户 保存 当前 设置 并 在 需要 时 加 载 所 保存 的 设置 。 设 置 选项 卡 界面 分 成 了 五 个 部 分 ， 各 部 分 用 虚线 隔 开 。 第 一 部 分 用 于 设置 系统 的 目 
标 环境 温度 与 环境 湿度 ， 当 完成 设 定 后 ， 系 统 就 会 自动 按照 目标 值 设置 温度 与 湿度 。 在 程序 的 状态 栏 中 ,我 们 可 以 看 到 当前 的 温 湿度 ， 包 括 芯 片 平 台 上 的 内 部 温度 /湿度 与 整个 实验 箱 的 外 部 温度 /湿度 。 第 
对 应 的 位 置 ， 以 方便 实验 员 对 某 一 反应 腔 进行 手动 观察 。 第 三 部 分 用 于 手动 进 样 ， 根 据 第 二 部 分 设 


二 部 分 用 于 手动 设置 观察 点 ， 当 设置 了 反应 


深 的 直径 以 及 序号 后 ， 高 精度 三 轴 移 动 定位 系统 会 自动 移动 弄 


和 进 样 量 ， 就 可 以 对 该 序号 样品 进行 手工 进 样 。 第 四 部 分 


置 的 序号 ， 只 要 我 们 设置 了 进 样 腔 的 直径 位 


样品 进行 一 次 轮 询 监测 以 及 进 样 。 第 五 部 分 


于 设置 单 次 进 样 注射 的 最 小 量 ， 可 以 选择 5mL 或 者 10mL。 


于 设置 自动 监测 的 时 间 间 隔 ， 当 设置 了 时 间 并 单 击 


自动 监测 按钮 后 ， 系 统 就 会 每 隔 固定 时 间 对 所 有 


Temperature: Inside: 4°C Outside: 4°C 


No Name | Crystallize Diameter Injection volume |Manual injection jothers 
| | | | | 


4 


eee) > 


Moisture : Inside : 50% Outside: 30% 


图 10-9 ”工作 簿 选项 卡 


1. condition : 


Temperature : 


3. Injection Position : 
Diameter: “| 输入 文字 .. 


校准 选项 卡 (图 


个 减 号 的 按钮 是 细 调 


Temperature: Inside: 4°C Outside: 4°C Moisture : Inside : 50% Outside: 30% 


图 10-10 设置 选项 卡 


10-11) 提供 了 校准 整个 平台 的 定位 功能 。 它 采用 向 导 模 式 ， 它 会 提示 实验 员 使 用 右边 的 高 精度 三 轴 移 动 定位 系统 调节 按钮 对 定位 系统 进行 调节 ， 有 两 个 减 号 的 按钮 是 粗 调 按钮 ， 有 一 
按钮 。 向 导 首 先 提示 实验 员 对 准 第 一 个 定位 点 ， 当 实验 员 按 下 统 调节 按钮 区 的 中 心 确认 按钮 时 ， 向 导 接着 提示 实验 员 对 准 第 二 个 定位 点 ， 接 着 是 第 三 个 定位 点 ， 然 后 向 导 会 提示 实验 员 


将 注射 针 调 节 到 一 个 进 样 孔 内 。 完 成 这 样 的 向 导 过 程 ， 系 统 就 能 自动 计算 出 芯片 原点 的 位 置 ， 以 及 进 样 空 的 位 置 ， 并 显示 在 界面 上 ， 后 面 的 自动 化 监测 与 进 样 过 程 就 以 此 为 参照 。 


Workspace 


2. Inject point : 


Setting 


1. original point : 这 里 要 至 少 连 续 设 置 三 点 ， 计 算 确定 


原点 ， 这 里 的 功能 要 跟 算 法 结合 


更 换 针 头 ， 加 液 测试 时 候 ， 校 准 注射 


位 置 


[ y-- 

Y. 
bb C Le] pe 
[Y+] 

PA 
[zj [z] [z+] [z+ 


Temperature : 


Inside: 4C Outside: 4°C 


10.9 本章 小 结 


在 本 章 中 ， 我 们 在 第 8 章 介绍 的 OpenFPGAduino 基 础 之 上 ， 基 于 实际 项 目 与 应 
芯片 平台 的 整体 设计 需求 。 接 着 我 们 从 生物 芯片 测试 平台 总 体 设计 入 手 ， 具 体 介绍 如 何 将 一 个 系统 以 及 需求 分 解 为 一 个 一 个 子 系统 ， 以 及 整个 生物 芯片 测试 平台 的 设计 过 程 。 特 别 需 要 强调 的 是 ， 我 们 利 


图 10-11 校准 选项 卡 


需求 ， 打 造 了 一 个 完整 的 物 联网 应 


Moisture : 


Inside : 50% Outside: 30% 


系统 一 一 物 联网 生物 芯片 测试 平台 。 首 先 ， 我 们 介绍 了 生物 芯片 的 概念 以 及 生物 


了 第 3 章 关 于 实时 性 的 讨论 ， 在 系统 的 设计 中 通过 将 不 同 的 时 延 需求 分 配 到 了 系统 的 各 部 分 来 满足 整个 系统 对 时 延 的 不 同 需求 ， 又 不 增加 系统 的 复杂 性 。 


11.2” 物 联网 数据 汇聚 


对 于 互联 网 来 说 ， 汇 聚 层 是 楼 群 或 小 


区 的 信息 汇聚 点 ， 是 连接 接 入 层 和 核心 层 的 网 络 设备 ， 为 接 入 


层 提供 数据 的 汇聚 、 传 输 、 管 理 、 分 发 处 理 ， 为 接 入 层 提供 基于 策略 的 连接 ， 如 地 址 合并 、 协 议 过 


滤 、 路 由 服务 、 认 证 管理 等 ， 通 过 网 段 划分 (如 VLAN) 与 网 络 隔离 可 以 防止 某 些 网 段 的 问题 蔓延 和 影响 核心 层 。 汇 聚 层 也 可 以 提供 接 入 层 虚 拟 网 之 间 的 互 连 ， 控 制 和 限制 接 入 层 对 核心 层 的 访问 ， 保 证 核 


心 层 的 安全 和 稳定 。 汇 聚 层 的 功能 主 


是 连接 接 入 层 节点 和 核心 层 中 心 。 汇 聚 层 设计 为 连接 本 地 的 逻辑 中 心 ， 仍 需要 较 高 的 性 能 和 比较 丰富 的 功能 。 


对 ， 也 可 以 安排 在 汇聚 层 。 
实现 流量 控制 和 访问 权限 约束 [1]。 


企 汇聚 层 实 现 安全 控制 和 身份 认证 时 ， 采 


物 联网 作为 互联 网 的 延伸 ， 既 需 


计 民 生 提供 服务 ， 而 汇聚 层 又 是 整个 大 数 拉 


运行 情况 以 及 节点 的 情况 。 


转换 的 消息 代理 ， 我 们 已 经 在 第 4 章 给 出 了 详 引 


网 关 的 管理 ， 以 及 如 何 使 


11.2.1 物 联 网 MQTT Kafka 网 桥 


提供 数据 的 汇聚 、 传 输 、 管 理 、 分 发 处 理 ， 也 需 
居 平 台 的 关键 节点 ， 


实现 


的 是 集中 式 的 管理 模式 。 当 网 络 规模 较 大 时 ， 可 以 设计 综合 安全 管理 


一 般 来 说 ， 访问 控制 会 安排 在 接 入 层 ， 但 这 并 非 绝 
策略 ， 例 如 ， 在 接 入 层 实现 身份 认证 和 MAC 地 址 绑 定 ， 在 汇聚 层 


户 认 证 访问 的 控制 及 设备 的 集中 管理 。 另 多 
因此 汇聚 层 需要 提供 可 靠 的 运 维 管理 服务 。 物 联 


在 物 联网 大 数据 系统 的 汇聚 层 设 计 中 ， 为 了 扩展 汇聚 层 的 物 联网 设备 连接 数量 ， 我 在 使 


桥 ”。 


在 物 联网 汇聚 层 的 数据 平面 ， 我 们 以 Kafka 为 核心 来 构建 数据 汇聚 层 ; 在 物 联网 汇聚 层 的 控制 平面 ， 我 们 以 Zoo 


， 由 于 要 汇聚 物 联网 海量 节点 的 信息 ， 考 虑 到 物 联网 可 能 会 为 国 


汇聚 层 的 控制 平面 提供 基于 Web 技 术 的 可 视 化 管理 ， 可 以 方便 运 维 工程 师 实时 掌握 汇聚 层 的 


Keeper 来 实现 物 联网 的 信息 汇聚 。 对 于 基于 HTTP 到 Kafka 的 协议 


的 例子 ; 在 本 节 中 ， 我 们 将 给 出 一 个 物 联网 MQTT 协 议 到 Kafka 网 桥 的 例子 ;对 于 数据 平面 与 控制 平面 的 管理 ， 我 们 将 介绍 如 何 使 
Web UI 实现 Zookeeper 信 息 聚 合 控制 平面 的 管理 。 


在 互联 网 中 ， 网 桥 是 早期 的 两 端口 


是 共享 同一 条 背 板 总 线 的 。 后来， 网 桥 被 具有 更 多 端口 、 


在 我 们 的 物 联网 大 数据 系统 中 ， 网 


二 层 网 络 设备 ， 


桥 是 连接 两 个 不 


可 隔离 冲突 域 的 交换 机 所 取代 [9。 


Kafka 集 群 作为 汇聚 层 数据 平面 核心 的 基础 上 


同 协 议 网 络 的 中 间 桥 梁 ， 如 HTTP 到 Kafka 的 协议 转换 ， 以 及 MQTT 到 Kafka 的 协议 转换 都 需要 使 
HTTP 到 Kafka 的 网 桥 ， 在 那里 网 桥 被 称 为 Kafka 的 HTTP 代 理 。 下 面 我 们 来 深入 学 习 一 下 MQTT 到 Kafka 网 桥 的 设计 ， 图 


11-2 所 示 是 MQTT 到 Kafka 网 桥 的 数据 流 图 。 


Web UI 来 进行 Kafka 聚 合 


， 引 入 了 数据 转发 代理 ， 这 样 的 数据 转发 代理 也 被 称 为 “网 


来 连接 不 同 网 段 。 网 桥 的 两 个 端口 分 别 有 一 条 独立 的 交换 信道 ， 不 是 共享 一 条 背 板 总 线 ， 可 隔离 冲突 域 。 网 桥 比 集线器 性 能 更 好 ， 集 线 器 各 端口 都 


网 桥 来 完成 。 在 第 4 章 中 ， 我 们 已 经 学 习 了 如 何 使 


©) MQTT-Kafka Hr 


OpenFPGAduino IoT 
基础 架 


如 图 11-2 所 示 ， 整 个 物 联网 数据 
桥 ， 再 由 网 桥 发 送 到 Kafka 消 息 总 线 (message hub) ， 接 着 数据 被 最 终 发 送 到 移动 设备 管理 模块 并 使 
模块 转发 命令 到 Kafka 消 息 总 线 ， 消 息 经 过 网 桥 转发 送 到 对 应 的 物 联网 网 关 ， 最 后 被 送 到 物 联网 移动 设备 上 执行 这 一 管 


构 


图 11-2 MQTT 到 Kafka 网 桥 的 数据 流 


来 我 们 认真 学 习 一 下 网 桥 的 设计 ， 这 里 网 桥 的 设计 采 


在 网 桥 设 计 中 ， 我 们 要 完成 的 任务 有 两 个 ， 一 个 是 上 行 的 数据 链 路 ， 另 一 个 是 下 行 的 数据 链 路 。 其 中 我 们 


JavaScript 实 现 ， 并 运行 在 Node.js 上 。 


Kafka 
消息 总 线 


移动 管理 界面 (Web UI) 


到 的 模块 有 Kafka 客 户 端 、MQTT 客 户 端 以 及 MQTT 服 务 器 端 


移动 设备 管理 


， 详 细 的 代码 


0 下 所 示 : 


居 流 分 为 上 行 与 下 行 。 上 行 数据 流量 由 物 联网 设备 发 起 ， 首 先 其 将 收集 到 的 事件 信息 (event) 发 送 到 OpenFPGAduino 物 联网 网 关 ， 然 后 由 网 关 发 送 到 MQTT-Kafka 网 
Web UI 进 行 显示 。 在 下 行 数 据 方面 ， 通过 Web UI 对 设备 发 出 管理 命令 (command) ， 管 理 


命令 。 整 个 网 桥 起 到 了 对 数据 承上启下 的 作用 ， 是 整个 数据 传输 的 重要 环节 。 接 下 


var kafka = require(' 
HighLevelCons 
kafkaclient = 


kafka-node')，// 导 入 Kafka 客户 端 包 
umer = kafka.HighLevelConsumer, 
new kafka.Client(); 


HighLevelProducer = kafka.HighLevelProducer, 


producer = ne 


W Hi ghrevel Producer (kafkaclient) 7 


var mosca = ST mosca'); // 导 入 MQTT 服 务 器 包 


Var moscaSettings = 
port: 1883, S 
T: 
Var mgtt = require ('m 
var client = mqtt.con 
var server = new mosc 
server.on('ready', set 
// 当 MQTT 服 务 器 端 启动 后 


function setup() { 


T 默认 端口 

qtt') // 导 入 MOTT 客 户 端 包 

nect ('mqtt://localhost') // 创 建 MOTT 客 户 端 
a. ee (moscaSettings) : // 创 建 MOTT 服 务 器 端 


C 息 


console.log('Mosca server is up and running') 


T 
client.on('connect', 
client.subscr: 


function () { ”// 连 接 MOTT 客 户 端 
ibe(‘iot') // 监 听 iot 话 题 


client.publish('iot', 'Hello mqtt') // 向 iot 话 题 发 送 数 据 Hello matt 


b) 


client.on('error', function (error) { // 遇 到 错误 时 输出 错误 信息 


console. log (e: 


client.on('message', 


rror) 


function (topic, message) 


console.log ('Received in mgtt') 
console.log('Received matt topic ' + topic); 
console.log('Received mgtt message ' + message) ; 


var kafkaMessage = { 
topic: 'mgttin', // 定 义 Kafka 的 话题 、 
key: topic, // 将 MoTT 的 话题 包装 在 Kafka 的 关键 字 中 


messages: 
7 
producer.send 
if (err) 
conso. 
} 
he 


H 


message.toString() // 将 MoTT 的 消息 包装 在 Kafka 的 消息 中 


([kafkaMessage]，function (err, data) { // 发 送 Kafka 消 息 
le.log('Error sending data ' + err); 


var consumer = new HighLevelConsumer ( 


kafkaclient, 
[{ topic: 'mq 
{ 


groupId: 
autoCommi 
autoCommi 
} 
1: 


consumer.on('message', 


ttout' }]，// 定 义 Kafka 的 话题 
"mattbridge"， // 定 义 Kafka 消 费 者 组 


t: true, // 收 到 消息 自动 确认 
tIntervalMs: 5000 // 确 认 时 间 间 隔 5 秒 


function (kafkaMessage) { 


// 下 行 链 路 接受 Kafka 消 息 转发 MOTT 


Var message = 
var key = kaf 


kafkaMessage.value; 
kaMessage.key 


console.log('Received in kafka') 
console.log('Received mgtt topic ' + key); 
console.log('Received mgtt message ' + message) ; 


client .subscribe ( 
client .publish (ke; 
he 


key) // 监 听 给 定 的 话题 
y, message) ”// 转 发 消息 到 MOTT 


{ // 上 行 链 路 接受 MOTT 消 息 ， 并 转发 给 Kafka 


11.2.2 ” 物 联 网 数据 平面 


在 第 4 章 中 ,我 们 详细 学 习 了 作为 大 数据 消息 总 线 的 Kafka， 学 习 了 Kafka 的 弹性 水 平 扩 


Kafka 聚 合 网 关 管理 


展 、 高 可 


性 以 及 数据 存储 ， 采 | 


细 描 述 了 Kafka 的 原理 以 及 如 何 使 用 Kafka 来 收发 数据 ， 这 一 节 我 们 将 注意 力 集中 在 如 何 使 


为 实现 Kafka 聚 合 网 关 的 管理 ， 我 们 使 


Web UI 来 管理 Kafka 集 群 。 


Kafka 作 为 物 联网 数据 层 的 聚合 网 关 的 核心 是 再 合 : 


适 不 过 了 。 由 了 


F 第 4 章 已 经 


Yahoo 开 发 的 kafka-manager， 运 行 下 面 的 Docker 命 令 就 能 够 启动 kafka-manager 的 一 个 实例 ， 在 启动 kafka-manager 之 前 要 先 启动 Kafka 服 务 : 


经 详 


docker run -it --rm 


-p 9000:9000 -e ZK_HOSTS="localhost:2181" -e APPLICATION_SECRET=letmein sheepkiller/kafka-manager 


在 浏览 器 输入 “http://| 


ocalhost:9000” 即 可 启动 Kafka 的 管理 界面 ， 如 图 11-3 所 示 。 


oe Kafka Manager Í proa | Cluster ~ Brokers Topic + Preferred Replica Election Reassign Partitions 


Clusters / prod / Brokers 


+ Brokers Combined Metrics 

ld Host Port JMXPort Bytesin BytesOut Pate Mean; imin Smin -13min 
1 o © Messages in /sec oOo O O © 
2 cD Bytes in /sec ap €D €D 
3 @ Bytes out /sec Qo 《CD CD E 
4 CE @ Bytes rejected /sec ( 0.00 } ( 0.00 ) { 0.00 } 0.00 } 

Failed fetch request /sec TD CES CES @ 
5 © o 

Failed produce request sec O CD GD R 
6 z Oo © 

图 11-3 ”Kafka 集 群 管理 

在 图 11-3 中 ， 我们 可 以 通过 Web 界 面 对 Kafka 集 群 中 的 每 一 个 服务 器 进行 管理 ， 并 监控 每 一 个 代理 (Brokers) 的 数据 流量 信息 ， 同 时 管理 界面 也 给 出 了 整个 集群 流量 的 汇总 统计 信息 (Combined 


Metrics) ， 运 维 工 程 师 可 以 很 容易 地 通过 管理 界面 监控 整个 物 联网 汇聚 层 数据 平面 的 健康 状况 ， 对 出 现 的 问题 及 时 进行 修复 。 进 一 步 地 ， 运 维 工程 师 还 能 够 深入 到 每 一 个 话题 (topic) 内 部 去 检查 每 一 个 
具体 数据 流 的 情况 ， 如 图 11-4 所 示 。 


+ (estl 
Topic Summary Operations 
Number of Partitions 4 
Total number of Brokers 1 
Number of Brokers for Topic 1 Partitions by Broker 
Preferred Replicas % 100 = = 
Broker # of Partitions Partitions Skewed? 
Brokers Skewed % 0 
0 4 (0,1,2,3) false 
Brokers Spread % 100 
-repli 9 5 
Eee Consumers consuming from this topic 
- erf-consumer-14274 ZK 
Metrics i 
perf-consumer-95553 ZK 
Rate Mean 1min 5min 15min 
perf-consumer-93654 KF 
Messages in /sec aD a EC 
Bytes in /sec © © 
Bytes out /sec @@ © 10k 19k 
Bytes rejected /sec CD CD 0.00 CD 
Failed fetch request /sec CD CD o CD 
Failed produce request/sec ”CD CD GD CD 


图 11-4 ”Kafka 会 话 管理 


在 图 11-4 中 ， 我 们 可 以 通过 Web 界 面 对 Kafka 集 群 中 的 每 一 个 会 话 进行 管理 ， 运 维 工程 师 不 仅 能 够 实时 观察 会 话 中 的 数据 流 统计 信息 ， 而 且 能 在 数据 流出 现 异 常 时 进行 干预 。 例 如 ， 当 物 联 网 上 有 大 量 
节点 上 线 并 形成 突 发 的 数据 流量 时 ， 运 维 工程 师 可 以 手动 增加 会 话 的 分 片 数量 (add partitions) ， 增 加 当前 会 话 的 数据 吞吐 量 ， 减 少数 据 延迟 提高 实时 性 。 同 样 地 ， 当 汇聚 层 的 Kafka 服 务 器 出 现 故障 时 ， 
运 维 工程 师 也 可 以 重新 调整 分 片 的 部 署 位 置 (reassign partitions) ， 以 避免 服务 器 故障 造成 数据 拥堵 而 降低 数据 处 理 的 实时 性 。 


11.2.3” 物 联网 控制 平面 ZooKeeper 节 点 管理 


在 第 3 章 中 ,我 们 给 出 了 使 用 Node.js 来 实现 向 ZooKeeper 进 行 服务 注册 与 发 现 的 过 程 ， 在 这 一 节 中 ， 我 们 在 聚合 网 关上 部 署 ZooKeeper 来 实现 对 物 联网 汇聚 层 控 制 平 面 节点 信息 的 汇总 、 统 一 配置 与 管 


理 。 除 了 ZooKeeper 服 务 ， 在 聚合 网 关上 ， 我 们 还 部 署 了 ZooKeeper 的 Web UI 服务 ， 在 这 里 我 们 采用 了 node-zk-browser， 它 同样 使 用 Node.js 开 发 完成 ， 有 兴趣 的 读者 可 以 阅读 它 的 源 代码 ， 运 行 以 下 
一 系列 命令 ， 下 载 源 代码 以 及 Node.js 所 需要 的 依赖 库 ， 并 启动 Web UI 服务 : 


$ git clone https://github.com/killme2008/node-zk-browser; cd node-zk-browser 
$ npm install -d 
$ ./start.sh 


在 浏览 器 输入 “http://localhost:3000” 即 可 启动 ZooKeeper 的 管理 界面 ， 如 图 11-5 所 示 。 


node zookeeper browser - Chromium 


D nodezookeeperbr x$ N 知 周 
€e GC QO localhost )/node-z ov is @ B 98 - 
iii Apps B Imported pron: @ software B iot @ bigdata @ sdn @ machinelearni B embeded @ cloud B innovation Ms cisco Ms funder @ taining » 
Node-ZK-Browser Signin 
localhost:2181 
create path /iotnode3 
U | Search i 
日 Giot Stat: 

© config name value 

© node! czxid 4019 

mzxid 4019 

node2 i à 

© nodes pzxid 4019 
i L O naded dataLength 12 
由 © config numChildren 0 
由 © consumers Version 0 
# © isr_change_notification gine 0 
由 © admin me x 
由 向 marathon STE 
由 © zookeeper ctime Sun Nov 19 2017 20:38:08 GMT+0800 (CST) 
由 © brokers mtime Sun Nov 19 2017 20:38:08 GMT+0800 (CST) 


& © controller_epoch ephemeralOwner 0 
© cluster 


$ @ schema registry createdInThisSession false 


œ Data (Click on the value to edit it) : 
oa 192.168.31.4 


图 11-5 ZooKeeper Web UI 管理 


从 图 11-5 中 可 以 看 到 ， 我 们 能 够 很 方便 地 浏览 ZooKeeper 的 整个 目录 结构 ， 创 建 一 个 具体 的 路 径 ， 删 除 一 个 路 径 以 及 对 一 个 路 径 下 的 数据 进行 修改 。 在 图 11-5 中 ， 我 们 可 以 看 到 在 iot 目 录 下 注册 了 5 个 
物 联 网 设备 ， 每 个 设备 通过 ZooKeeper 向 物 联网 汇聚 ， 通 过 网 关 通 告 其 在 局 域 网 中 的 I|P 地 址 ， 而 利用 ZooKeeper 可 以 使 iot 目 录 下 的 config 节 点 实现 物 联网 汇聚 层 下 发 ， 并 同步 物 联网 节点 的 配置 。 


[1] 4] Ahttps://baike.baidu.com/item/iL RA o 


[2] 4] https: //baike.baidu.com/item/ 网 桥 /99310?fr=aladdin。 


11.4 物 联网 数据 统计 分 析 与 机 器 学 习 


完成 了 物 联网 的 数据 收集 与 数据 清洗 并 将 数据 存储 到 物 联网 的 核心 层 之 后 ， 接 下 来 自然 是 对 数据 进行 分 析 与 处 理 。 通 常 完 成 数据 分 析 这 一 工作 的 是 数据 分 析 师 或 者 数据 科学 家 。 由 于 物 联网 拥有 海量 节 
点 与 海量 数据 ， 人 工分 析 费 时 费力 ， 难 于 胜任 物 联 网 数据 分 析 的 需求 ， 因 此 在 物 联 网 中 ， 我 们 需要 采用 自动 化 的 分 析 手 段 与 工具 。 常 用 的 应 对 海量 数据 分 析 要 求 的 数据 分 析 手 段 分 别 是 统计 分 析 与 机 器 学 
习 ， 下 面 我 们 就 来 研究 如 何在 物 联网 核心 层 进行 基于 大 数据 的 统计 分 析 与 机 器 学 习 。 


11.4.1 ”统计 分 析 与 机 器 学 习 


统计 分 析 (statistical analysis) 是 商业 智能 (BI) 的 一 方面 ， 涉 及 收集 、 审 查 业 务 数据 和 趋势 报告 。 统 计 分 析 是 指 运用 统计 方法 及 与 分 析 对 象 有 关 的 知识 ， 以 定量 与 定性 结合 的 方式 进行 的 研究 活动 。 
它 是 继 统计 设计 、 统 计 调查 、 统 计 整 理 之 后 的 一 项 十 分 重要 的 工作 ， 是 在 前 几 个 阶段 工作 的 基础 上 通过 分 析 从 而 达到 对 研究 对 象 更 为 深刻 的 认识 。 它 又 是 在 一 定 的 选 题 下 ， 集 分 析 方案 的 设计 、 资 料 的 搜集 
和 整理 而 展开 的 研究 活动 。 系 统 、 完 善 的 资料 是 统计 分 析 的 必要 条 件 [1 。 


运用 统计 方法 、 定 量 与 定性 的 结合 是 统计 分 析 的 重要 特征 。 随 着 统计 方法 的 普及 ， 不 仅 统 计 工 作者 可 以 进行 统计 分 析 ， 各 行 各 业 的 工作 者 都 可 以 运用 统计 方法 进行 统计 分 析 。 只 将 统计 工作 者 参与 的 分 
析 活 动 称 为 统计 分 析 的 说 法 严格 说 来 是 不 正确 的 。 提 供 高 质量 、 准 确 而 又 及 时 的 统计 数据 和 高 层次 、 有 一 定 深度 和 广度 的 统计 分 析 报 告 是 统计 分 析 的 产品 。 从 一 定 意义 上 讲 ， 提 供 高 水 平 的 统计 分 析 报告 是 
统计 数据 经 过 深加工 的 最 终 产品 。 


在 统计 分 析 上 更 进一步 就 是 机 器 学 习 ， 有 关机 器 学 习 以 及 人 工 智能 的 相关 知识 ,我 们 已 经 在 第 5 章 做 了 非常 详细 的 介绍 ， 这 里 不 再 歼 述 。 


具体 到 对 物 联网 系统 的 统计 分 析 ， 我 们 有 很 多 选择 ， 有 均值 分 析 、 方 差分 析 、 假 设 检验 等 统计 分 析 常 用 的 方法 ， 也 有 简单 的 频率 统计 这 种 在 物 联 网 中 常用 的 简单 统计 方法 。 而 对 于 机 器 学 习 算法 来 说 ， 
在 物 联 网 系统 中 为 了 实现 数据 的 闭环 ， 也 就 是 从 收集 数据 到 汇集 数据 再 到 分 析 数 据 最 后 做 出 决策 的 实时 过 程 ， 会 用 到 机 器 学 习 的 在 线 模式 。 接 下 来 我 们 就 从 频率 统计 与 在 线 机 器 学 习 出 发 来 实际 研究 一 下 物 
联网 核心 层 的 数据 分 析 设计 。 


11.4.2 ”基于 Spark 批 处 理 统计 分 析 


回忆 在 物 联网 大 数据 的 核心 层 ， 我 们 使 用 Spark 作 为 核心 层 数据 处 理 的 平台 ， 自 然 实现 频率 统计 分 析 也 应 该 在 Spark 平 台 上 实现 。 在 这 里 我 们 使 用 EclaiJS 来 驱动 Spark 实 现 数据 的 频率 统计 。 首 先 我 们 假 
定 物 联网 上 的 事件 以 时 间 戳 的 形式 记录 ， 每 个 时 间 戳 代表 发 生 了 一 个 事件 ， 并 且 数 据 已 经 经 过 Kafka 汇 总 并 发 送 到 核心 层 的 文件 系统 中 ， 
思想 仍然 基于 MapReduce， 完 整 程序 如 下 : 


我 们 使 用 Spark 以 批 处 理 的 方式 来 完成 数据 的 频率 统计 ， 程 序 的 核心 


var 
var 
var 


var 
var 
var 


he 


var 


eclairjs = require('eclairjs'); 

spark = new eclairjs(); 

session = spark.sql.SparkSession.builder () 

-appName ("Statistic batch") 

-getOrCreate () 7 

file = '/mnt/event'; 

textFile = session.read() .textFile (file) .rdd(); // 从 文件 读 取 数据 
data = textFile.flatMap (function (sentence) { 

return sentence.split ("\n"); 


time = data 


.map (function (timeString) { // 对 数据 中 的 时 间 截 进行 处 理 


T) 


var 


T. 


function timeWindow(timeString, window) { 

/ RE CE wi howell TE U 75 FE N ASh TER Pe HR E — I TR 
var date = new Date (timeString) ; 
date.setTime (date.getTime() - date.getTime() % window) 
return date.toString() 

T 

return timeWindow(timeString, 20000) // 时 间 窗 口 20 秒 


dataPair = time.mapToPair(function (time, Tuple2) { // 为 每 条 数据 记 1 
return new Tuple2 (time, 1); 


[spark.Tuple2]); 


var reduced = dataPair.reduceByKey (function (valuel, value2) { 


// 基 于 时 间 鹤 为 键 值 进行 数据 统计 


T: 


var 


return valuel + value2; //#AIFUIN TH ARH Be BET S H 


result = reduced.map (function (pair) { return {time:pair. 1(), statistic: 


pair. 2()}}); // 处 理 数据 以 方便 显示 


result.collect().then(function (results) { // 收 集 数 据 显 示 结果 


T: 


console.log('Statistic results:', results); 
session.stop(); 


#Spark 4 


11.4.3 


基于 Kappa 架 构 实时 统计 分 析 


部 分 的 程序 一 样 ， 运 行 上 面 程序 ， 我 们 需要 先 执行 docker 命 令 来 准备 运行 eclaiJs 的 环境 。 


仅仅 使 用 批 处 理 方 式 来 完成 事件 频率 统计 显然 远 远 不 能 满足 物 联网 大 数据 系统 对 实时 性 的 要 求 ， 
Kappa 处 理 架 构 。Kappa 实 时 大 数据 处 理 系统 由 三 部 分 组 成 ， 分 别 是 缓存 数据 的 Kafka、 处 理 数据 的 Spark 以 及 存储 结果 的 ElasticSearch。 我 们 这 里 实现 的 是 简单 的 统计 ， 可 以 简化 设计 ， 在 程序 中 ， 我 们 首 
先 从 Kafka 内 读 取 需要 的 数据 ， 接 着 不 使 用 Spark 而 是 直接 使 用 Node.js 处 理 数据 ， 最 后 在 ElasticSearch 实 现 对 统计 结果 的 更 新 与 合并 。 完 整 的 程序 完整 程序 如 下 : 


此 我 们 需要 


新 设计 ， 以 实现 数 折 


居 的 实时 统计 。 回 忆 第 4 章 的 内 容 ， 我 们 为 实时 大 数据 处 理 设计 了 


var 


var 
var 


H: 


kafka = require('kafka-node'), 

HighLevelConsumer = kafka.HighLevelConsumer, 

client = new kafka.Client (); 

elasticsearch = require('elasticsearch'); 

esclient = new elasticsearch.Client ({ // 初 始 化 BlasticSearch 的 链接 
host: 'localhost:9200', 

log: "info' 


HighLevelConsumer = kafka.HighLevelConsumer, 


var 


17 


kafkaclient = new kafka.Client(); _ 

consumer = new HighLevelConsumer ( // 初 始 化 Kafka 的 链接 
kafkaclient, 

L 


{ topic: 'messages' } 


groupId: "statisticstreaming", 
autoCommit: true, 
autoCommitIntervalMs: 5000 

T 


function timeWindow(timeString, window) { // 时 间 窗 口 映射 函数 


} 


var date = new Date(timeString) 7 
date.setTime (date.getTime() - date.getTime() % window) 
return date.toString() 


consumer.on('message', function (kafkaMessage) { // 处 理 接收 到 的 Kafka 消 息 


console.log('Received key ' + kafkaMessage.key) : 
console.log('Received message ' + kafkaMessage.value) ; 


var index = 'statistic'; 
var type = 'log' 
var count = 1; 
esclient.exists({ ”// 查 询 文档 是 否 存 在 
index: index, 
type: type, 
id: id 
}, function (error, exists) { 
if (exists === true) { // 文 档 存 在 ， 对 数据 进行 累加 更 新 
esclient.update ({ 
index: index, 


body: { 
"script": { // 更 新 操作 脚本 
"source": "ctX。 source.counter += 
params.count", 7755 HH 
"lang": "painless", 
"params": { 
"count": count // 累 加 变量 值 
} 
i 
} 
}, function (error, response) { 
console.log (response) 


H 
} else { // 文 档 不 存在 ， 创 建文 档 并 设置 初始 值 
esclient. index ({ 
index: index, 


type: type, 
id: id, 
body: { 


counter: count, 
T 
}, function (error, response) { 
console. log (response) 
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在 线 机 器 学 习 


例 的 标注 。 其 最 重要 的 一 个 特点 是 当 一 次 预测 完成 时 ， 其 真实 正确 结果 便 被 获得 了 ， 通 过 将 预测 值 与 这 一 结果 比较 可 直接 用 来 修正 模型 。 


又 可 以 分 为 三 步 : 第 一 步 ， 算 法 获得 一 个 训练 实例 ;第 二 步 ， 算 法 预测 训练 实例 的 类 别 ; 第 三 步 ， 算 法 获得 正确 类 别 ， 并 根 


在 机 器 学 习 领域 ， 在 线 机 器 学 习 (online learning) 有 时 也 称 流 式 机 器 学 习 (streaming learning) ， 指 每 次 通过 一 个 训练 实例 进行 模型 学 习 的 学 习 方法 。 在 线 机 器 学 习 的 目的 是 实时 正确 预测 训练 实 


在 线 机 器 学 习 有 很 多 类 型 ， 其 中 包括 线性 分 类 族 。 属 于 线性 分 类 族 的 几 种 机 器 学 习 算 法 具有 相同 的 模型 形式 。 在 学 习 


常 来 讲 ， 一 种 在 线 机 器 学 习 算法 对 一 个 序列 进行 一 系列 处 理 的 步 
nt 


章 段 ， 对 于 每 个 类 别 ， 算 法 通过 训练 数据 估计 一 个 参数 向 量 w。 在 推理 阶段 ,算法 


在 给 定 一 组 参数 向 量 w 和 数据 x 的 条 件 下 ， 以 w 和 x 的 乘积 作为 数据 与 该 类 的 相似 度 度 量 。 感 知 器 (perceptron) 也 可 以 认为 是 非 线 性 分 类 族 ， 感 知 器 是 一 种 有 监督 非 线性 分 类 算法 。 算 法 将 输入 的 实例 分 为 


正 例 、 


负 例 两 类 。 在 学 习 阶段 ， 算 法 从 训练 数据 中 估计 w。 在 推理 阶段 ， 


总 结 来 讲 ， 在 线 机 器 学 习 在 推理 阶段 ， 算 法 接受 一 个 输入 实例 x， 并 根据 权 向 量 w 确 定 其 类 别 。 
入 x 分 为 两 类 。 将 w^T x> 0 的 实例 x 分 为 正 例 ; 反之 ,将 w^T x< 0 的 实例 分 为 负 例 。 在 学 习 阶段 ， 根 据 


为 例 ， 给 出 基于 在 线 机 器 学 习 的 物 联网 数据 分 析 常用 算法 。 


114.5 ”基于 RLS 的 异常 检测 


需求 是 检测 物 联网 数据 中 的 异常 值 。 利 用 异常 检测 技术 ， 我 们 能 够 很 容易 地 将 注意 力 集中 在 这 些 异常 值 上 ， 而 不 是 海量 的 正常 数据 上 。 


能 的 潜在 风险 。 而 要 实现 实时 的 异常 检测 ， 我 们 就 需要 用 到 在 线 机 器 学 习 技 术 ， 利 用 在 线 机 器 学 习 技 术 ， 实 现 对 历史 数据 进行 学 习 的 同时 对 当前 的 数据 做 出 判断 。 


出 假定 ， 而 是 在 递 推 过 程 中 不 断 最 小 化 真实 数据 与 估计 数据 的 最 小 均 方 误 


我 们 认为 输入 序列 是 没有 异常 的 ; 


统计 分 析 有 时 亦 称 为 异常 


算法 基于 特征 向 量 x 与 参数 向 量 w 乘 积 的 符号 对 输入 数据 的 类 别 进行 预测 。 


设 输入 x 是 一 个 D 维 实 向 量 ，w 是 模型 的 权重 向 量 ， 
居 ， 感 知 器 算法 所 学 习 的 是 模型 的 权 和 


给 定 训练 数 


洽 测 ， 即 按 统计 规律 进行 入 侵 检测 。 统 计 分 析 先 对 审计 数据 进行 分 析 ， 若 其 行 


也 是 D 维 实 向 量 。 二 元 感知 器 按照 输出 函数 w^Tx 和 将 输 


为 与 系统 预计 的 不 一 致 ， 则 这 种 行为 被 认为 是 滥 


向 量 w。 在 11.4.5 节 ， 我 们 以 最 简单 的 线性 分 类 模型 


行为 。 在 物 联网 数据 处 理 中 ， 一 类 非常 通用 的 


通过 人 工分 析 这 些 异常 值 ， 我 们 可 以 快速 找到 物 联网 系统 问题 或 者 可 


RLS (Recursive Least Square) 算法 ， 即 递 推 最 小 二 乘法 ， 是 最 小 二 乘 算 法 的 一 类 快速 算法 。 递 归 最 小 二 乘法 自 适应 估计 器 是 对 一 组 已 知 数 据 的 最 佳 估计 器 ， 处 理 过 程 中 没有 对 输入 序列 的 统计 特性 做 


x(n) 


更 新 算法 


。 这 里 ， 我 们 使 


d(n) 


All-9 递 推 最 小 二 乘法 的 算法 框图 


在 图 11-9 中 ，x(n) 为 输入 数据 序列 ，n 代 表 时 间 ，x(n) 首 先 经 过 权重 为 Wn 的 线性 滤波 器 ， 获 得 估计 值 vm， 


成 滤波 器 参数 的 调整 量 AWn。 每 当 收 到 一 个 新 的 序列 值 ， 算 法 就 重复 以 上 过 程 获得 序列 的 估计 值 并 完成 参数 调整 ， 


递 推 最 小 二 乘法 作为 在 线 机 器 学 习 的 核心 算法 来 实现 物 联网 异常 值 的 检测 。 图 11-9 是 递 推 最 小 二 乘法 的 算法 框 


d(n) 


将 估计 值 xo 与 真实 值 d(n) 进 行 比较 获得 误差 量 e(n)， 最 小 二 乘 算法 根据 输入 x(n) 以 及 误差 e(n)4 


当 估计 值 与 实际 值 存在 巨大 偏差 时 ， 我 们 认为 序列 的 真实 值 出 现 了 异 


这 样 我 们 就 完成 了 对 输入 序列 趋势 的 估计 值 。 当 序列 的 估计 值 与 真实 值 偏差 不 是 太 大 时 ， 
常 。 递 推 最 小 二 乘法 的 JavaScript 实 现 如 下 所 示 : 


var math = require('mathjs'); //JavaScript 通 用 数据 库 

function FinitQueue(size) { // 长 度 为 size 的 有 限 长 度 队 列 ， 先 进 先 出 策略 
this.size = size; 
this.queue = []; 


} 
FinitQueue.prototype.push = function(e) { // 向 队列 添加 元 素 
if (this.queue.length < this.size) { // 队 列 未 满 
this.queue.push (e) ; 
return null; 
} else { 
this.queue.push (e) ; 
return this.queue.shift(); 
T 


} 
// 具体 的 算法 逻辑 与 公式 请 参照 下 面 的 链接 ， 程 序 中 的 符号 与 算法 中 的 一 一 对 应 
// https://en.wikipedia.org/wiki/Recursive least squares filter 
function RLS (size, lamda, delta) { ~ ~ = 
// 创 建 RLS 算 法 ，size 为 窗口 大 小 ，Lamda 为 学 习 速 率 ，delta 为 方差 矩阵 初始 化 值 
this.size = size; 
this.lamda = lamda; 
this.delta = delta; 
this.w = math.zeros (size); //w 是 权重 
this.P = math.multiply (math.eye (size), 1.0 / delta); // 方 差 矩阵 


// 对 权重 与 方差 矩阵 进行 初始 化 


// 队 列 已 满 
// 弹 出 队列 头 部 元 素 并 返回 


RLS.prototype.init = function (w0, PQ) { 
this.w = w0; 
this.P = P0; 


RLS.prototype.update = function (x, d) { // 使 用 输入 x 以 及 期 望 响 应 d 更 新 权重 W 
var alpha = d - math.multiply math. transpose (x) ,this.w);// 计 算 误差 


var a = math.multiply(math.multiply(this.P, x), 1 / (this.lamda + math.multiply (math.multiply (math.transpose(x),this.P), x)) 
his.P = math.multiply(math.subtract (this.P, math.multiply(math.multiply(g, math.transpose(x)),this.P)) 


HE 
this.w = math.add(this.w,math.multiply(alpha,g)); // 更 新 权重 
return alpha; 


T 

RLS.prototype.estimate = function (x) { // 获 得 当前 预测 器 的 输出 
return math.multiply (math. transpose (this.w) , x); 

L 

function AnormalDetection(size, lamda, delta, threshold) { 

// 创 建 异 常 检测 器 ，threshold 为 检测 门限 
this.delay = size; // 延 时 启动 故障 检测 
this.queue = new FinitQueue (size); // 创 建 有 限 长 度 队 列 存储 数据 
this.rls = new RLS(size,lamda,delta); // 创 建 RLS 算 法 估计 数据 
this.threshold = threshold; 


T 

AnormalDetection.prototype.detection = function (input) { // 进 行 故障 检测 
var x= math.matrix(this.queue.queue) ; 
var out = this.queue.push (input) ; 


,i/this.lamda) ; 


) ;// 计 算 误差 增益 


if(out != null) 
this.delay—- 17/ 延 时 启动 故障 检测 以 便 算法 收敛 
var est = this.rls.estimate(x) // 获 得 估计 值 
var error = this.rls.update(x, input); // 获 得 估计 误差 
if (this.delay < 0 && math.abs ( (error) > this.threshold) 
// 当 延 时 已 结束 ， ”误差 超过 | ] 限 ， 说 明 检测 到 了 故障 


console.log("Anormal found the input is " + input) 


有 了 对 物 联网 数据 统计 以 及 机 器 学 习 的 基本 认识 ， 又 认真 学 习 了 应 用 与 异常 检测 的 RLS 算 法 ， 接 下 来 我 们 进入 真正 的 实践 环境 ， 搭 建 属于 自己 的 物 联网 系统 。 下 面 我 们 以 物 联网 的 日 志 系 统 为 突破 口 ， 
重点 学 习 如 何 将 已 经 学 到 的 知识 应 用 到 具体 系统 的 架构 中 。 


[1] 4] Ahttps://baike.baidu.com/item/ 统计 分 析 /11013761。 
[2] 4] Ahttp://yjliu.net/blog/2012/07/14/a-brief-talk-about-online-learning. html. 


11.6_ 物 联网 数据 安全 日 志 机 器 学 习 系统 设计 


1 面 我 们 完成 了 海量 物 联 网 日 志 的 收集 索引 与 展示 。 虽 然 这 些 由 各 类 设备 生成 的 海量 日 志 数 据 能 够 提供 巨大 的 潜在 洞察 力 ， 但 是 手工 对 其 进行 分 析 显 然 不 是 经 济 有 效 的 手段 ， 我 们 需要 通过 机 器 学 习 才 


能 让 它们 变 得 具有 意义 。 


ay 


由 机 器 生成 的 日 志 数 据 可 以 说 是 大 数据 宇宙 中 的 “上 暗物质 ”。 在 包括 智能 手机 、 物 联网 终端 在 内 的 分 布 式 信息 技术 生态 环境 中 ， 虽 然 这 些 数据 可 以 产生 于 每 一 层 、 每 一 个 节点 和 每 一 个 组 件 ， 被 四 处 收 
集 、 处 理 、 分 析 和 使 用 ， 但 是 最 终 都 会 汇聚 到 后 台 的 数据 中 心 。 


很 明显 ， 自 动 化 是 在 日 志 数 据 中 找到 洞察 力 的 关键 ， 尤 其 是 在 这 些 日 志 数 据 已 经 升级 为 大 数据 的 情况 下 。 自 动 化 能 够 确保 以 数据 流 一 样 的 速度 迅速 进行 数据 的 收集 、 分 析 、 处 理 ， 以 及 对 数据 所 展现 出 
来 的 问题 进行 快速 响应 。 高 扩展 性 日 志 分 析 自动 化 的 关键 推动 因素 包括 机 器 数据 整合 中 间 件 、 业 务 规则 管理 系统 、 语 义 分 析 、 流 计算 平台 和 机 器 学 习 算 法 。 


机 器 学 习 是 自动 化 和 提升 日 志 数 据 洞察 力 的 关键 。 不 过 ， 机 器 学 习 无 法 凭借 一 套 解决 方案 应 对 所 有 的 日 志 数 据 分 析 问 题 。 不 同 的 机 器 学 习 技术 要 应 对 不 同类 型 的 日 志 数 据 和 分 析 挑战 。 如 果 能 够 提前 确 
定 机 器 学 习 要 查找 的 关联 性 和 其 他 模式 ， 那 么 可 以 采用 监督 式 学 习 的 方式 。 不 过 ， 监 督 式 学 习 需要 人 类 专家 准备 供 参考 的 “练习 数据 ” 集 ， 以 便于 机 器 学 习 算法 能 够 识别 具有 重大 关联 的 模式 。 


当日 志 数据 模式 无 法 被 提前 精确 定义 时 ， 非 监督 式 和 强化 学 习 可 能 更 为 合适 。 这 些 由 机 器 学 习 推 动 的 大 数据 分 析 场 景 应 该 彻底 实现 自动 化 ， 因 为 它们 无 须 人 类 提供 练习 数据 集 就 能 够 挑选 并 按照 优先 次 
序 排列 出 与 任务 关联 性 最 大 的 模式 。 


多 日 志 相关 性 是 一 个 关于 非 监督 式 和 强化 学 习 的 核心 日 志 数 据 分 析 使 用 案例 。 随 着 多 样 化 的 日 志 数 据 集 被 综合 在 一 起 ， 它 们 变 得 越 来 越 多 样 化 、 越 来 越 复 杂 、 越 来 越 不 可 理解 ， 最 有 意义 的 数据 变更 和 
关联 在 传统 的 分 析 中 会 变 得 十 分 不 清楚 。 如 果 仅 尝试 使 用 简单 的 查询 ， 既 有 报告 和 仪表 板 等 其 他 标准 的 分 析 角 度 ， 那 么 这 些 隐藏 模式 可 能 仍然 无 法 实现 可 视 化。 在 这 些 案例 当中 ， 机 器 学 习 可 以 通过 聚 类 、 
马尔 可 夫 模 型 、 自 组 织 映 射 等 不 同 的 量化 研究 方法 ， 为 进一步 的 探索 找 出 最 值得 关注 的 模式 。 


非 监督 式 与 强化 学 习 的 另 一 个 重要 用 途 是 ， 识 别 此 前 从 未 出 现 过 ， 或 是 曾经 出 现 过 但 未 被 分 析 师 识别 出 来 ， 但 具有 重大 意义 的 模式 。 埃 森 哲 报告 的 作者 探讨 了 一 个 关于 机 器 学 习 的 安全 日 志 分 析 应 用 。 
该 应 用 能 够 迅速 识别 出 用 户 违规 访问 模式 。 即 便 这 个 访问 模式 之 前 从 未 出 现 过 ， 应 用 也 能 够 迅速 将 其 识别 出 来 ， 消 除了 隐私 信息 泄漏 的 风险 。 


海量 日 志 数 据 所 带 来 的 深刻 洞察 力 具 有 以 下 特点 : 复杂 性 、 深 刻 性 和 史无前例 性 。 从 日 志 数 据 中 进行 学 习 ， 而 不 是 通过 先 验 知识 进行 学 习 将 会 耗费 数据 科学 家 们 大 量 的 时 间 。 数 据 科学 家 们 会 不 断 地 调 
整 他 们 的 机 器 学 习 算法 ， 以 监视 日 志 中 的 “信号 ”。 此 前 ， 即 使 是 最 资深 的 人 类 主题 专家 也 忽视 了 这 一 部 分 内 容 。 特 别 是 对 物 联网 日 志 记录 的 行为 进行 安全 分 析 仍然 是 需要 不 断 探 索 的 新 兴 领 域 。 基 于 前 面 
学 习 的 内 容 ， 我 们 已 经 能 够 搭建 大 数据 平台 来 收集 海量 的 日 志 信息 ， 在 本 节 ， 我 们 就 在 这 些 日 志 基础 上 来 进行 物 联 网 的 安全 分 析 。 利 用 基于 日 志 的 安全 分 析 ， 我 们 就 能 够 完成 第 7 章 提 到 的 击 杀 链 技 术 ， 即 在 
物 联网 系统 的 每 一 个 环境 部 署 日 志 系统 ， 通 过 日 志 安全 分 析 发 现在 不 同 击 杀 链 环节 上 的 黑客 行为 ， 并 实现 对 黑客 的 发 现 与 击 杀 。 


11.6.1 攻击 指纹 DGA 


首先 我 们 要 清楚 什么 是 DGA (域名 生成 算法 ) 以 及 DGA 检 测 的 重要 性 。 攻 击 者 常常 会 使 用 域名 将 恶意 程序 连接 至 命令 和 控制 服务 器 ， 从 而 达到 操控 受害 者 机 器 的 目的 。 这 些 域名 通常 会 被 编码 在 恶意 程 
序 中 ， 这 也 使 得 攻击 者 具有 很 大 的 灵活 性 ， 他 们 可 以 轻松 地 更 改 这 些 域名 以 及 IP。 而 对 于 一 般 硬 编码 域名 ， 则 往往 不 被 攻击 者 所 采用 ， 因 为 其 极 易 遭 到 黑 名 单 的 检测 。 


有 了 DGA,， 攻击 者 就 可 以 利用 它 来 生成 用 作 域 名 的 伪 随 机 字符 串 ， 这 样 就 可 以 有 效 地 避 开 黑 名 单列 表 的 检测 。 伪 随机 意味 着 字符 串 序列 似乎 是 随机 的 ， 但 由 于 其 结构 可 以 预先 确定 ， 因 此 可 以 重复 7 
和 复制 。 该 算法 常 被 运用 于 恶意 软件 以 及 远程 控制 软件 。 由 于 恶意 软件 要 想 和 黑客 建立 沟通 连接 ， 就 需要 使 用 DGA 域 名 ， 因 此 DGA 域 名 就 成 为 攻击 者 的 指纹 ， 它 是 在 日 志 中 检测 攻击 的 有 效 手段 。 
Wannacry 勒 索 病 毒 里 就 有 DGA 域 名 的 身影 。 


下 面 我 们 来 简单 了 解 一 下 攻击 者 在 受害 者 端 都 做 了 哪些 操作 。 首 先 攻击 者 运行 算法 并 随机 选择 少量 的 域 (可 能 只 有 一 个 ) ， 然 后 攻击 者 将 该 域 注册 并 指向 其 命令 和 控制 服务 器 。 在 受害 者 端 ， 恶 意 软件 
运行 DGA 并 检查 输出 的 域 是 否 存在 ， 如 果 检 测 为 该 域 已 注册 ， 那 么 恶意 软件 将 选择 使 用 该 域 作 为 其 命令 和 控制 服务 器 。 如 果 当 前 域 检测 为 未 注册 ， 那 么 程序 将 继续 检查 其 他 域 。 


安全 人 员 可 以 通过 收集 样本 以 及 对 DGA 进 行 逆向 来 预测 哪些 域 将 来 会 被 生成 和 预 注册 ， 并 将 它们 列 入 黑 名 单 。DGA 可 以 在 一 天 内 生成 成 干 上 万 的 域 ， 我 们 不 可 能 每 天 都 重复 收集 和 更 新 我 们 的 列表 。 


色 11-15 展 示 了 恶意 软件 的 工作 流程 。 恶 意 软件 会 尝试 连接 三 个 域 : asdfg.com、wedcf.com 和 bjgkre.com。 前 两 个 域 未 被 注册 ， 并 从 DNS 服 务 器 接收 NXDomain 响 应 。 第 三 个 域 已 被 注册 ， 因 此 恶意 
软件 会 使 用 该 域名 来 建立 连接 。 


212.211.123.01 
NXDomaln 
NXDomain 


图 11-15 


恶意 软件 的 工作 流程 


DGA 的 算法 种 类 繁多 ， 这 里 就 不 一 一 列举 了 ， 在 这 里 我 们 给 出 一 个 DGA 的 JavaScript 例 子 以 方便 读者 理解 : 


bjgkre.com 
wedcf.com 
asdfg.com 


tlds = []; //KA HAIK 
tlds.push ("cc"); 
tlds.push ("co"); 
tlds.push ("eu"); 
shuffle list = function(list) { // 对 一 个 列表 进行 随机 洗 牌 
for (var r, tmp, 1 = list.length; l; r = parseInt (Math.random() * 1), 
tmp = list[--l], 
list[1] = list[r], 
list[r] = tmp); 
return list; 
T: 
prng = function (string) { // 伪 随机 数 发 生 器 ， 利 用 种 子 字符 串 产 生 随机 数 
string += ""; 
result = 0; 
for (i = 0; i < string.length; i++) { 
result = (result << 5) - result + string.charCodeAt (i); 
result &= result; 
} 


return result; 


= function() { //DGA 生 成 算法 

dga domains = []; 

current_date = new Date; // 使 用 时 间作 为 随机 算法 的 种 子 

for (var i = 0; i < 10; i++) 

for (var j = 0; j < tlds.length; j++) 
seed = ["OK", 

current_date.getUTCMonth() + 1, 
current_date.getUTCDate (), 
current_date -getUTCFullYear(), 


dga 


{ 


tlds[j] 
] .join("."); // 生 成 种 子 字符 串 
r = Math.abs (prng (seed)) + i; // 生 成 随机 数 


domain = ""; 
for (var k=0; k<xr%7+ 6; k++) { 

r = Math.abs (prng (domain + r)); 

domain += String. fromCharCode (r % 26 + 97); // 用 随机 数 生 成 字符 
dga_domains.push (domain + "." + tlds[j]); 

T 

return shuffle list (dga_domains); // 对 生成 的 domain 再 进行 洗 牌 打 乱 

H 


g 


元 


运行 上 面 的 算法 就 能 够 得 到 一 


随机 的 域名 ， 而 这 些 随机 的 域名 可 以 被 恶意 软件 


来 构建 控制 信道， 


联网 设备 发 起 拒绝 服务 攻击 。 


11.6.2 ”DGA 应 用 实例 DNS 隧道 


客 就 能 够 实现 对 受害 设备 的 控制 ， 就 如 同 在 第 7 章 看 到 的 那样 ， 是 


眼 客 可 以 通过 这 些 控制 信道 控制 物 


在 第 7 章 中 ， 我 们 使 


基于 iptable 等 防火 墙 技术 以 及 一 系列 的 减少 攻击 表 


的 手段 能 够 在 很 大 程度 上 拦截 恶 


软件 使 


击 表面 上 ， 恶 意 软件 仍然 能 够 利 
中 ，HTTP 隧 道 以 及 DNS 隧道 等 和 


DNS 作为 网 络 基础 协议 ， 为 了 保障 基本 的 网 络 访问 ， 防 火 墙 不 能 通过 简 和 


DGA 突 破 防火 墙 的 保护 ， 实 现 与 命令 和 控制 服务 器 建立 连接 ， 而 这 时 候 日 志 分 析 技 术 : 


DGA 域 名 来 建立 与 命令 和 控制 服务 器 的 通信 连接 。 但 是 在 一 些 我 们 意 想不到 的 攻 
就 成 了 我 们 保护 系统 完成 对 黑客 击 杀 的 有 效 手 段 。 在 这 些 意 想不到 的 攻击 表 


上 


公开 服务 端口 的 隧道 技术 是 较 著名 的 技术 。 下 | 


H] 


1.DNS 协 议 


DNS 在 我 们 的 网 络 世界 中 是 一 个 非常 


要 的 协议 ， 它 将 长 串 


我 们 就 以 DNS 隧道 技术 为 例 来 看 看 DGA 是 如 何 应 


= 


到 具体 的 攻击 中 的 。 


的 不 适合 记忆 的 IP 地 址 映射 成 可 读 性 较 强 的 字符 域名 。 整 个 域名 空间 呈 层 次 化 的 树 状 结构 ， 顶 层 是 根 域 ， 全 球 一 共有 13 个 根 域 。 根 域 下 为 我 


们 平常 熟悉 的 顶级 域 ， 如 .com、.net、.org 等 。 域 名 的 存储 、 解 析 和 管理 都 要 通过 域名 服务 器 来 实现 。 根 据 域名 所 属 域 和 授权 范围 可 以 划分 区 域 ， 区 域 上 的 主 服务 器 和 辅 服务 器 均 被 称 为 权威 域名 服务 器 。 
权威 域名 服务 器 保存 了 该 域 的 所 有 主机 信息 。 


DNS 的 记录 类 型 有 很 多 ， 常 见 的 有 A、AAAA、CNAME、MX、SOA 和 NS 等 。DNS 隧 道 可 以 利 


上 


DNS 的 解析 过 程 可 以 分 为 两 种 类 型 : 迭代 查询 和 递归 查询 。 通 常 本 机 到 本 地 DNS 服务 器 的 过 程 属于 递归 查询 ， 而 本 : 


a J 


力 ， 提 高 解析 速度 ， 引 入 了 缓存 机 制 。 缓 存 和 TTL 紧 密 相连 ， 当 TTL 过 期 时 ， 本 地 DNS 服务 器 会 丢弃 缓存 的 数据 ， 重 新 从 


其 中 的 一 些 记录 类 型 来 传输 数据 ， 如 A、MX、CNAME、TXT 和 NULL 等 。 


也 DNS 服务 器 对 查询 域名 的 解析 过 程 属于 迭代 查询 。 为 了 减轻 本 地 DNS 服务 器 的 压 
权威 域名 服务 器 上 获取 新 的 数据 。 正 是 DNS 协议 的 通用 性 给 黑客 们 提供 了 可 乘 之 机 。 


a J 


的 规则 拦截 这 些 DNS 协 议 包 文 ， 而 黑客 正 是 利 


这 一 点 ， 在 DNS 上 使 用 隧道 技术 ， 实 现 命令 与 控制 信道 。 


2.DNS 隧 道 


DNS 隧道 (tunneling) 可 以 分 为 直 连 和 中 继 两 种 。 直 连 也 就 是 客户 端 直 


是 隐蔽 性 比较 弱 ， 很 容易 被 探测 到 ， 另 外 限制 比较 多 ， 很 多 场 


点 ， 所 以 速度 上 较 直 连 慢 很 多 。DNS 隧 道 的 中 继 模式 过 程 如 图 11-16 所 示 [1]。 


在 图 11-16 中 ， 用 户 A 和 用 户 B 由 于 防火 墙 D 的 规则 
法 通过 互联 网 与 各 级 域 的 权威 域名 服务 器 进行 查询 ， 比 


数据 封装 在 客户 端 查询 的 请 求 中 ， 当 请 求 的 数据 包 经 过 图 11-16 所 示 的 路 径 ， 最 终 到 达 我 们 控制 的 权威 DNS 服务 器 时 ， 再 从 请 求 数据 包 中 解析 出 数据 ， 并 将 相应 的 数据 封装 在 DNS 


本 地 
DNS 服务 需 


图 11-16 DNS 中 继 隧 道 


成 通信 。 本 地 DNS 服务 器 可 以 由 远程 DNS 服务 器 代 蔡 ， 其 原理 相同 。 


DNS 中 继 过 程 中 的 一 个 关键 技术 点 是 对 DNS 缓存 机 制 的 规避 ， 
域名 都 是 不 一 样 的 或 者 是 已 经 是 过 期 的 。 


对 DNS 载荷 的 编码 是 DNS 隧道 的 另 一 个 核心 技术 。 从 高 


DGA， 和 普通 DGA 不 同 的 是 ， 这 里 的 算法 是 基于 要 传输 的 信息 进行 编码 的 ， 


11.6.3 ”自然 语言 处 理 


为 了 检测 DGA 生 成 的 域名 ， 我 们 不 仅 要 使 用 大 数据 日 志 系统 ， 还 需要 有 


因为 大 多 数 场景 下 ， 内 网 的 客 


户 端 位 于 防火 墙 后 ， 服 务 器 不 可 能 发 起 连接 。 所 以 对 于 大 多 数 工具 ， 客 户 i 


层 来 看 ， 载 荷 只 是 客户 端 和 服务 器 通信 的 正常 流量 。 例 如 ， 客 户 端 发 送 一 个 A 记 录 请 求 给 服务 器 ， 查 询 的 主机 名 为 
2roAUwBaCGRuc3R1bm5lbGluZwo.test.domain.com， 其 中 2roAUwBaCGRuc3R1bm5lbGluZwo 是 客户 端 传递 给 服务 器 的 信息 ， 这 和 


接 和 指定 的 目标 DNS 服务 器 (又 称 权威 DNS 服 务 器 ) 连接 ， 通 过 将 数据 编码 封装 在 DNS 协 议 中 进行 通信 。 这 种 方式 速度 快 ， 但 
景 不 允许 自己 指定 DNS 服务 器 。 通 过 DNS 迭代 查询 而 实现 的 中 继 隧 道 则 更 为 隐秘 ， 但 同时 因为 数据 包 到 达 目标 DNS 服务 器 前 需要 经 过 多 个 节 


民 制 无 法 访问 外 网 ， 但 防火 墙 对 DNS 的 流量 是 放行 的 。 当 用 户 需 要 解析 的 域名 本 地 DNS 服务 器 无 法 给 出 回答 时 ， 本 地 DNS 服务 器 就 会 采用 和 迭 代 查 询 方 
如 从 com 域 的 服务 器 得 到 test.com 域 的 权威 域名 服务 器 地 址 ， 最 后 定位 到 所 查询 域 的 权威 DNS 服务 器 ， 形 成 一 个 逻辑 信道 。 所 以 ， 我 们 可 以 将 通信 的 


回 


Eh, 


返回 给 客户 端 完 


为 如 果 需 要 解析 的 域名 在 本 地 DNS 服务 器 中 已 经 有 缓存 时 ， 本 地 DNS 服务 器 就 不 会 转发 数据 包 。 所 以 在 我 们 构造 的 请 求 中 ， 每 次 查询 的 


字符 解码 后 的 信息 便 是 DNS 隧道 。 而 这 个 编码 过 程 采用 的 正 是 


而 且 编码 过 程 必须 是 可 逆 的 ， 黑 客 能 够 在 收 到 的 DNS 查询 域名 上 解码 出 所 需要 的 信息 以 完成 与 被 入 侵 设备 的 连接 。 


向 。 它 研究 能 实现 人 与 计算 机 之 间 
所 以 它 与 语言 学 的 研究 有 着 密切 的 


自然 语言 进行 有 效 通 信 的 各 种 理论 和 方 


定时 向 服务 器 发 送 请 求 ， 保 证 二 者 之 间 的 通信 状态 。 


人 类 (自然 ) 语言 之 间 的 相互 作 


1.Word2vec 的 基本 原理 


在 自然 语言 处 理 中 ， 目 前 深度 学 习 技 术 无 疑 是 最 成 功 的 技术 ， 而 要 在 自然 语言 处 理 中 使 
(embedding) ， 词 嵌入 其 实 是 将 词 或 者 句子 /文档 向 量化 。 想 要 让 机 器 理解 自然 语言 ， 首 先 要 找到 一 种 方法 将 自然 语言 


(符号 ) 数学 化 。 


到 自然 语言 处 理 (Natural Language Processing, NLP) 技术 。 自 然 语 言 处 理 是 计算 机 科学 领域 与 人 工 智能 领域 的 一 个 重要 方 
法 。 自 然 语言 处 理 是 一 门 融 语言 学 、 计 算 机 科学 、 数 学 于 一 体 的 科学 。 这 一 领域 的 研究 涉及 自然 语言 ， 即 人 们 日 常 使 用 的 语言 ， 

缮 系 ， 但 又 有 重要 的 区 别 。 自 然 语言 处 理 并 不 是 一 般 地 研究 自然 语言 ， 而 在 于 研制 能 有 效 地 实现 自然 语言 通信 的 计算 机 系统 ， 特 别 是 其 中 的 软件 系统 ， 
学 的 一 部 分 。 自 然 语言 处 理 是 计算 机 科学 、 人 工 智能 、 语 言 学 关注 计算 机 和 
们 学 习 将 基于 深度 学 习 的 自然 语言 处 理 算法 应 用 到 物 联网 安全 日 志 分 析 中 站。 


因而 它 是 计算 机 科 
的 领域 。 接 下 来 我 们 首先 来 学 习 一 下 目前 在 自然 语言 处 理 中 非常 流行 的 深度 学 习 算法 ， 接 着 我 


深度 学 习 技术 ， 所 要 做 的 第 一 步 就 是 将 文本 转换 为 可 以 输入 神经 网 络 的 向 量 。 这 在 NLP 领域 被 称 为 词 风 入 


NLP 中 最 直观 常用 的 一 种 词 表 示 方 法 是 one-hot 方 法 ， 这 种 方法 把 每 个 词 表 示 为 一 个 很 长 的 向 量 。 这 个 向 量 的 维度 是 词 表 大 小 ， 其 中 绝 大 多 数 元 素 为 0， 只 有 一 个 维度 的 值 为 1， 这 个 维度 就 代表 了 当前 


的 词 。 举 个 例子 来 阅 : “ 物 联 网 ”可 能 表示 为 [0001000000http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/17567/OEBPS/Text/..http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/17567/OEBPS/Text/...], m “AAG 


path=/openresources/teach_ebook/uncompressed/17567/OEBPS/Text/..http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ ebook/uncompressed/17567/OEBPS/Text/..]。 为 了 解决 one-hot 的 维度 过 大 的 问题 ， 现 在 最 好 


居 ” 可 以 表示 为 [0000000100http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17567/OEBPS/Text/..http://www.hzcourse.com/resource/readBook? 


的 方法 是 Word2vec 词 向 量 表示 方法 B]。 


Word2Vec 实 际 上 使 用 了 两 种 方法 ， 即 CBOW (Continuous Bag Of Words) 和 Skip-gram， 如 图 11-17 所 示 。CBOW 方 法 的 目的 是 基于 文章 中 某 个 词 的 上 下 文 预测 该 词 的 出 现 概率 


， 而 Skip-gram 方 


法 则 是 用 给 定 的 词 来 预测 其 周边 的 词 。 利 用 Word2Vec 可 以 对 词 向 量 维度 进行 压缩 ， 通 常 在 NLP 问题 中 ， 使 用 称 为 嵌入 层 (embedding layer) 的 神经 网 络 来 完成 这 项 工作 内 。 


输入 过 程 输出 输入 过 程 输出 
w(t-2) w(t-2) 
w(t-1) SUM w(t-1) 


w(t) w(t) 


w(t+1) w(t+1) 


w(t+2) w(t+2) 


CBOW Skip-gram 


图 11-17 Word2Vec 


2. 基 于 LSTM 的 自然 语言 处 理 


完成 了 从 词 到 向 量 的 转换 ， 接 下 来 我 们 需要 做 的 是 使 用 神经 网 络 来 对 向 量 进行 分 类 与 识别 。 近 年 来 ， 随 着 递归 神经 网 络 的 使 用 ， 特 别 是 LSTM 的 对 话 生 成 以 及 机 器 翻译 系统 的 成 功 ， 越 来 越 多 的 工程 师 与 
研究 者 开始 关注 LSTM 在 自然 语言 处 理 方面 的 无 限 潜力 。 有 关 LSTM 的 原理 ， 读 者 可 以 复习 第 5 章 相关 内 容 。LSTM 内 部 拥有 记忆 单元 ， 能 够 记忆 过 去 输入 网 络 中 的 序列 历史 ， 这 样 的 模式 和 人 类 阅读 文字 的 模 
式 有 天 然 的 相似 之 处 ， 我 们 总 是 在 阅读 的 过 程 中 记 下 我 们 最 近 读 到 的 内 容 来 帮助 我 们 理解 当前 阅读 的 内 容 。 对 于 LSTM 这 样 的 深度 学 习 模 型 来 说 ， 我 们 需要 做 的 仅仅 是 将 需要 训练 的 数据 按 顺 序 依次 输入 
LSTM 中 ， 然 后 利用 预期 LSTM 输 出 的 结果 对 整个 网 络 的 参数 进行 基于 梯度 下 降 的 调整 ， 无 须 任何 特别 的 设计 与 干预 ， 只 要 提供 给 LSTM 训 练 的 数据 足够 多 ，LSTM 就 有 能 力学 习 到 输入 序列 与 预期 结果 的 内 在 
关系 ， 从 而 实现 一 个 端 到 端的 自然 语言 处 理 模型 。 我 们 无 须 精巧 地 设计 中 间 的 分 类 与 识别 过 程 ， 只 需要 训练 LSTM 就 能 得 到 一 个 性 能 良好 的 自然 语言 分 类 识别 器 ， 为 输入 的 序列 给 出 识别 分 类 。 正 是 由 于 具有 
这 样 的 优势 ， 深 度 学 习 技 术 ， 特 别 是 LSTM 技 术 目前 已 经 占领 了 自然 语言 处 理 的 几乎 所 有 的 应 用 方向 与 应 用 场景 。 


11-18 给 出 了 使 用 LSTM 进 行 对 话 生成 的 例子 ， 当 训练 完成 后 ， 只 需要 向 LSTM 网 络 中 输入 对 话 ， 就 能 获得 需要 的 回答 部 分 。 
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图 11-19 给 出 了 使 用 LSTM 进 行 语言 翻译 的 例子 ， 同 样 地 ， 当 训练 完 以 后 ， 只 需要 向 LSTM 网 络 输入 要 翻译 文本 ， 就 能 获得 翻译 好 的 文本 。 


11.6.4 


学 习 了 自然 语言 处 理 的 相关 知识 ， 我 们 只 需要 一 些 扩展 就 能 实现 DGA 的 检测 。 首 先 ，DGA 生 成 的 域名 可 以 认为 是 机 器 的 语言 ， 而 人 们 常用 的 域名 则 是 人 类 的 语言 ， 因 此 我 们 可 以 使 用 自然 语言 处 理 技术 
区 分 域名 中 什么 是 机 器 的 语言 、 什 么 是 人 类 的 语言 就 可 以 了 。 相 对 于 基本 的 自然 语言 处 理 ， 我 们 需要 将 基于 词 级 别 的 处 理 粒度 减 小 到 字符 级 别 。 在 域名 的 识别 中 ， 通 常 域 名 是 由 一 个 或 者 两 个 词组 成 的 ， 
自然 语言 学 习 句子 中 前 后 词 的 关系 一 样 ， 我 们 用 自然 语言 处 理 技术 来 学 习 一 个 单词 中 前 后 字母 的 关系 ， 并 利用 这 个 关系 来 判断 一 个 词 是 正常 的 还 是 DGA 生 成 的 。 而 用 于 训练 深度 学 习 模型 的 数据 可 以 通过 


知 识 就 是 力 量 <end> 


Encoder (a gle, }—> | 一 >|e gle, | — fe, | —> |e; 


Attontion 


Decoder (alih >} > 


Knowledge is power <end> 
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深度 学 习 识 别 DGA 


来 

与 

大 数据 系统 收集 的 日 志 得 到 ， 比 如 在 HTTP 访 问 日 志 中 ， 我 们 就 能 够 获得 相应 域名 (如 memz.co) 也 可 以 从 DNS 服务 器 的 日 志 来 获得 所 需要 的 训练 数据 。 有 了 算法 框架 ， 又 有 了 数据 ， 接 下 来 我 们 要 做 的 就 
是 用 框架 来 实现 算法 并 用 数据 训练 出 我 们 想 要 的 模型 。 


1.Keras 与 TensorFlow 深 度 学 习 框架 


Keras 是 一 个 用 Python 编写 的 开源 神经 网 络 库 。 它 能 在 MXNet、Deeplearning4j、TensorFlow、CNTK 或 Theano 上 运行 。 其 设计 的 目的 是 快速 实现 实验 与 深 神 经 网 络 ， 它 的 重点 是 最 小 、 模 块 化 和 可 
扩展 。 它 是 被 作为 项 目 开放 端 神经 电子 智能 机 器 人 操作 系统 (ONEIROS) 研究 工作 的 一 部 分 开发 出 来 的 ， 它 的 主要 作者 和 维护 者 是 Google 工 程 师 Franois CholletD]。 


2017 年 ， 谷 歌 TensorFlow 团 队 决定 支持 Keras 作 为 TensorFlow 的 核心 库 。Chollet 解 释 阅 ，Keras 被 认为 是 一 个 接口 ， 而 不 是 一 个 端 到 端的 机 器 学 习 框架 。 它 使 得 无 论 后 端 使 用 哪 种 科学 计算 库 ， 都 可 以 
很 容易 地 配置 神经 网 络 。 目 前 Beta 版 支持 几乎 所 有 主流 的 机 器 学 习 库 ，Keras 为 深度 学 习 提 供 了 一 个 统一 而 高 效 的 开发 接口 。 


这 里 我 们 使 用 Keras 结 合 TensorFlow 作 为 深度 学 习 神 经 网 络 的 开发 框架 ， 其 提供 了 一 个 用 户 友 好 的 开发 环境 ， 用 户 可 以 专心 研究 网 络 架 构 的 设计 而 不 需要 花 大 量 的 精力 去 处 理 神经 网 络 计算 图 中 的 细节 


设计 与 实现 ， 这 样 既 利 用 了 TensorFlow 强 大 的 计算 能 力 ， 又 利用 了 Keras 强 大 而 高 效 的 算法 与 网 络 描述 能 力 ， 而 避免 了 TensorFlow 烦 琐 的 网 络 构 建 与 设计 过 程 。 


2.DGA 检 测 深度 学 习 模型 实现 与 训练 


a 
里 


然 我 们 在 第 5 章 接触 到 了 使 用 JavaScript 实 现 的 神经 网 络 模型 ， 但 是 Javascript 模 型 目前 仍然 缺乏 计算 加 速 的 有 效 手 段 ， 特 别 是 在 模型 训练 过 程 中 ， 通 常 要 想 让 一 个 深度 神经 网 络 收敛 需要 提供 大 约 十 
倍 于 网 络 所 包含 参数 的 训练 样本 ， 而 样本 训练 的 反 向 学 习 过 程 又 是 特别 消耗 计算 资源 的 ， 因 此 仍然 不 适合 在 实际 项 目 中 应 
Keras 结 合 TensorFlow 的 深度 学 习 框 架 ， 接 下 来 我 们 就 在 此 基础 上 实现 DGA 检 查 模型 以 及 模型 的 训练 ， 模 型 的 构建 与 训练 使 用 Python 语言 完成 ， 其 核心 思想 是 通过 自然 语言 处 理 技术 ， 使 用 序列 分 类 方法 对 
正常 的 域名 与 DGA 生 成 的 域名 进行 区 分 。 相 对 于 自然 语言 处 理 中 基于 单词 作为 最 小 单位 的 处 理 方式 ， 在 DGA 中 ， 我 们 将 使 用 基于 字母 为 最 小 单位 的 处 理 方式 ， 其 核心 思想 是 将 一 个 域名 看 作 一 个 时 间 序 列 ， 


根据 递归 神经 网 络 分 析 时 间 序 列 的 前 后 关系 来 判断 某 一 域名 是 人 创造 的 还 是 机 器 DGA 生 成 的 ， 核 心 部 分 的 代码 如 下 [中 ]: 


def build model (max_features，maxlen) : # 构 建 网 络 模型 


4 


""Build LSTM model""" 
model = Sequential () 
model .add (Embedding (max features, 128, input length=maxlen) ) 
alarron Si NoedVector, IT ANE RPM TIGR IER, EANET 
# 前 后 关系 的 词 向 量 表示 形式 
model.add(LSTM(128)) 创建 递归 网 络 层 ， 使 用 LSTM 进 行 基 于 序列 的 学 习 与 识别 
model.add (Dropout (0.5)) # 创 建 抽样 层 ， 抽 样 层 随机 将 某 些 神经 元 的 输出 置 零 ， 避 免 过 学 习 
mode) .add (Dense (1) ) # 创 建 一 人 汇总 递归 层 的 输出 
model .add (Activation ('sigmoid') ) 
HEH sigmoid CSCI IS NIS HER EKIO- 1 的 概率 输出 
model .compile (lo "binary crossentropy', 
PAE MET PLR, BEF IRE EERE R S 
optimizer='rmsprop') # 用 RMSPro 优 化 器 进行 梯度 下 降 优 化 
return model 
run (max_epoch=25, nfolds=10, batch_size=128) : # 训 练 模型 
"""Run train/test on logistic regression model" 
indata = data.get_data()  # 获 取 数 据 
# Extract data and labels 
X = [x[1] for x in indata]  # 获 得 训练 域名 
labels = [x[0] for x in indata] # 获 得 域名 的 标签 
# Generate a dictionary of valid characters 
valid chars = {x:idx+1 for idx, x in enumerate (set (''.join(X)))} 
# 获 得 域名 包含 的 所 有 有 效 字 符 ， 也 就 是 字符 字典 
with open ('dict.json', 'w') as f: # 将 字典 数据 存 入 json 文 件 中 以 备 后 用 
f.write (json.dumps (valid chars)) 
max features = len(valid chars) + 1 # 词 嵌入 神经 网 络 层 的 神经 元 个 数 
maxlen = np.max([len(x) for x in X]) # 域 名 的 最 大 长 度 
# Convert characters to int and pad 
X = [[valid_chars[y] for y in x] for x in X] 
# 使 用 字典 将 字 笠 转换 为 字符 在 字 :山中 的 过 二 
X = sequence.pad sequences (X, maxlen=maxlen) 
# 通 过 在 数据 前 面 补 零 ， 规 则 数据 到 相同 长 度 
S S ee to 0-1 
== 'benign' else 1 for x in labels] 
eiea he 1 形式 ， 6 代表 正 常 域名 ，1 代 表 DGA 域 名 
final data = [] 
for fold in range (nfolds) : ”# 开 始 进 行 深度 学 习 训 练 过 程 
print "fold %u/%u" % ay a e 
X train, X test, y train, st, test = train test _ split (X, 
y, labels, test_size=0.2) eo T MIA, 测试 全 占 20% 
print 'Build modelhttp: Vien. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17567/OEBPS/Text/.. 
model = build model (max features, maxlen) FOJE 
print "Trainhttp://www. z 和 ee 
X_train, X_holdout, y train, ut = train test split (X_train, 
y_train, test_size=0.05) Hi AE SLE Se DZ SIE BR, FE SEB h 5% 
best_iter = -I 
best_auc = 0.0 
out_data = {} 


而 在 实际 应 用 中 通常 使 用 TensorFlow 等 成 熟 深 度 学 习 框 架 来 完成 。 学 习 了 


for ep in range (max epoch) : # 批 次 训练 模型 
model. EiL (X train, train, batch_size=batch_size, nb_epoch=1) 
rear cur 
t_probs = model.predict_proba (X holdout) # 对 交叉 验证 集 进行 测试 
t_auc = sklearn.metrics.roc_auc > score (y | holdout, t_probs) 
# 验 证 计算 ROC 与 RUC 值 
print 'Epoch %d: auc = %f (best=%f)' % (ep, t auc, best_auc) 
if t_auc > best, auc: # 如 果 获 得 了 到 目前 为 止 最 好 的 预测 精度 
best_auc = t_auc 
best_iter = ep 
probs = model. predict_proba (X test) # 在 测试 集 上 验证 数据 以 防 过 拟 合 
out data = {'y':y_test, "labels': a oer, "probs':probs, 
"epochs': ep, 'confusion_matrix': sklearn.metrics.confusion 
matrix R 
(y_test, probs > .5)} 


print sklearn.metrics.confusion_matrix(y_test, probs > .5) 
else: 
E 无 法 再 有 进一步 的 改进 ， 跳 出 循环 并 计算 ROC 与 AUC 
if (ep-best iter) > 2: 
break 
final_data.append(out_data) # 记 录 结 果 


model.save weights ('model.hdf5') # 将 训练 参数 存储 到 文件 以 备 后 用 

with open("model.json', 'w') as f:  # 将 模型 存储 到 文件 
£.write (model.to json()) 

return final data ` 


为 方便 读者 理解 ， 根 据 上 面 程序 绘制 了 用 于 DGA 识 别 的 深度 学 习 网 络 结构 ， 如 图 11-20 所 示 。 网 络 的 输入 是 域名 字符 序列 ， 首 先 每 个 字符 被 转换 成 128 维 字母 嵌入 向 量 ， 然 后 将 字母 序列 向 量 按 顺 序 依次 
输入 到 递归 神经 网 络 LSTM 中 。 将 LSTM 的 输出 进行 一 次 抽样 后 得 到 一 个 128 维 向 量 ， 然 后 用 一 个 带 有 Sigmoid 激 活 函 数 的 全 链接 层 将 128 维 向 量 转化 为 一 个 0-1 的 DGA 域 名 的 可 能 性 概率 。 


[ 


原始 域名 字母 序列 


dropout 


Dense with 


Sigmoid 
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ROC 曲 线 (Receiver Operating Characteristic Curve， 受 试 者 工作 特征 曲线 ) 又 称 为 “感受 性 曲线 ” (sensitivity curve) ， 得 名 原因 是 曲线 上 各 点 反映 了 相同 的 感受 性 ， 它 们 都 是 对 同一 信号 刺激 的 
应 ， 只 不 过 是 在 几 种 不 同 的 判定 标准 下 所 得 的 结果 而 已 。 


ROC 曲 线 是 根据 一 系列 不 同 的 二 分 类 方式 (分界 值 或 决定 闭 ) ， 以 真 阳性 率 (灵敏 度 ) 为 纵 坐标 、 以 假 阳性 率 1- 特 异 度 ) 为 模 坐标 绘制 的 曲线 。 传 统 的 诊断 试验 评价 方法 有 一 个 共同 的 特点 ， 即 必须 
将 试验 结果 分 为 两 类 ， 再 进行 统计 分 析 。ROC 曲 线 的 评价 方法 与 传统 的 评价 方法 不 同 ， 无 此 限制 ， 而 是 根据 实际 情况 ， 允 许 有 中 间 状 态 ， 可 以 把 试验 结果 划分 为 多 个 有 序 分 类 (如 正常 、 大 致 正常 、 可 疑 、 
大 致 异常 和 异常 五 个 等 级 ) ， 再 进行 统计 分 析 。 因 此 ，ROC 曲 线 评价 方法 适用 的 范围 更 为 广泛 。AUC 信 为 ROC 曲 线 所 覆盖 的 区 域 面积 ， 显 然 ，AUC 越 大 ， 分 类 器 分 类 效果 越 好 ， 也 就 是 说 整个 ROC 曲 线 越 靠 
近 左上 角 越 好 加。 图 11-21 是 DGA 识 别 算法 的 训练 结果 的 ROC 曲 线 及 AUC 值 。 
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图 11-21 


DGA 识 别 训练 结果 


可 以 看 到 ， 使 用 基于 LSTM 的 序列 识别 算法 可 以 实现 一 个 近乎 完美 的 DGA 识 别 机 器 学 学 习 算法 。 


3.Kerasjs 与 Node.js 深 度 学 习 框架 


Keras 作 为 目前 流行 的 深度 学 习 库 ， 可 以 支持 各 种 不 同 的 后 端 框架 作为 网 络 训练 与 应 用 的 实现 。 虽 然 Node.js 无 法 胜任 模型 训练 的 巨大 运算 量 ， 在 本 书 中 我 们 还 是 要 问 是 否 能 


到 Node.js 后 端 上 上 ， 而 Keras.js 就 是 我 们 要 找 的 工具 。Keras.js 的 设计 目标 是 将 Keras 深 度 学 习 库 计 


| 练 学 习 的 结果 作为 基础 加 载 到 浏览 器 或 者 Node.js 中 ,使 


程 中 巨大 的 计算 量 ， 又 可 以 使 用 JavaScript 方 便 地 进行 模型 的 部 署 与 模型 的 应 用 的 可 视 化 。 要 应 


(https://github.com/transcranial/keras-js) ， 使 用 其 中 的 转换 程序 encoder.py 对 模型 model.hdf5 进 行 转换 : 


4 0.6 0.8 


训练 好 的 Keras 模 型 应 


] .0 


Kerasjs， 我 们 首先 要 将 Keras 训 练 的 数据 转化 为 JavaScript 方 便 读 取 的 数 


JavaScript 实 现 模 型 的 应 


居 ， 下 载 Keras.js 的 项 


， 这 样 既 避 免 了 训练 过 


$ ./encoder.py -q model.hdf5 


转换 脚本 将 生成 model_weights.buf 与 model_metadata.json 两 个 文件 ， 这 两 个 文件 包含 了 我 们 需要 的 神经 网 络 的 所 有 参数 ， 接 下 来 我 们 就 能 够 在 Node.js 上 实现 DGA 域 名 的 识别 了 。 


4.DGA 检 测 深度 学 习 模 型 部 署 


有 了 Keras.js 神 经 网 络 模型 的 部 署 就 不 需要 安装 庞大 的 TensorFlow 框 架 了 ， 这 样 我 们 就 能 够 将 DGA 检 测 的 神经 网 络 模型 部 署 在 物 联网 的 任何 地 方 ， 包 括 接 入 层 、 汇 聚 层 、 核 心 


点 上 。 这 样 的 部 署 能 力 正 是 我 们 坚持 使 用 JavaScript 做 物 联网 开发 所 一 直 追 求 的 。 完 整 的 程序 代码 如 下 所 示 : 


屋 ， 甚 至 也 可 能 部 署 在 节 


var KerasJS = require ('keras-js') // 导 入 Keras .js 深度 学 习 库 
var model = new KerasJS.Model ({ // 加 载 已 经 训练 好 的 Keras 模 型 
filepaths: { // 模 型 文件 路 径 
model: './model.json', // 模 型 定义 
weights: './model weights.buf'，// 权 重 参数 
metadata: './model_metadata.json' // 模 型 各 层 具体 的 定义 


Ly 
filesystem: true，// 通 过 文件 系统 加 载 


gpu: false 
//Node .js 默认 不 支持 GPU， 如 果 代 码 运行 在 浏览 器 上 我 们 可 以 打开 开关 使 用 GPU 加 速 模 型 计算 


}) 
var dict = require("./dict.json") // 导 入 处 理 用 的 字典 ， 将 字符 映射 为 字典 内 的 位 置 
var maxlen = 49 // 从 TensorFlow 中 获得 的 输入 数据 长 度 
var testdata = [ // 测 试用 例 
"google.com", // 正 常 域名 l 
"uivbbrebmb.co"”//DGA 域 名 ， 使 用 前 面 的 DGa 算 法 生成 
] 
Var feeddata = testdata.map(function (x) 


// 对 测试 数据 进行 预 处 理 ， 转换 成 cne- hot 编 在 由 Keras 需 要 


return x.split(".") [0] // 获 得 域名 去 除 后 级 
RE L wav > // 将 字符 串 拆 分 成 字符 
map(function (c) { . 
return dict [c] // 查 询 字 典 获得 索引 值 


T) 
1) .map (function(x) { // 填 充 前 导 0 数 据 ， 使 得 所 有 数据 长 度 统一 为 49 
var padSize = Math.max(0, maxlen - x.length); // 计 算 要 填充 长 度 
var zeroArray = fae ly (null, Array (padSize)) .map (function (v, i) 
{return 0}) // 生 成 0 填 Ra 
return zeroArray.concat (x) // 拼 接 数据 
T) 
mode), - ready () “// 模 型 完成 加 载 
.then (function () { // 进 行 模型 预测 


return model.predict ({input : new Float32Array (feeddata[0])}) 


H) 
.then (function (outputData) { // 获 得 模型 预测 结果 


console.log("predict for google") 
console. log (outputData) 


H) 
.then (function () { // 进 行 模型 预测 


return model.predict ({input : new Float32Array (feeddata[1])}) 


T) 


.then (function (output Data) { // 获 得 模型 预测 结果 
") 


console.log("predict for DGA' 
console. log (outputData) 


T) 
.catch (function (err) { // 处 理 异常 
console.log (err) 


H: 


上 面 基于 深度 学 习 的 DGA 检 测 程序 的 运行 结果 如 下 所 示 : 


predict for google 

{ output: Float32Array [ 0.00010548236605245 
predict for DGA 

{ output: Float32Array [ 0.9921953678131104 


62 ] } 
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可 以 看 到 ， 程 序 很 好 地 完成 了 DGA 的 检测 。 至 此 我 们 实现 了 在 物 联网 的 任何 一 个 环境 上 部 署 这 一 深度 学 习 系统 ， 检 测 DGA 检 测 黑客 行为 ， 保 护 物 联网 的 安全 。 


引用 http://www.freebuf.com/sectool/112076.html。 


H 


引用 https://baike.baidu.com/item/ 自然 语言 处 理 。 


四 


= 


四 | 


引用 https://en.wikipedia.org/wiki/Keras。 


G 


& A http://www.freebuf.com/articles/network/139697 


| 


参考 https://yq.aliyun.com/articles/140340。 


E 


参考 http://www.cnblogs.com/Qsir/p/5905994.html。 


11.7 本 章 小 结 


参考 http://blog.csdn.net/lenbow /article/details/52120230。 


引用 http://blog.csdn.net/mpk_no1 /article/details/72458003。 


.html。 


本 章 是 本 书 的 最 后 一 章 ， 也 是 综合 性 的 一 章 。 在 本 章 中 ， 我 们 完成 了 对 整个 物 联网 大 数据 分 析 系 统 的 设计 。 我 们 充分 利用 了 前 面 各 章 所 学 到 的 一 些 知识 ， 实 现 了 从 理论 到 实践 的 
到 | 物 联网 的 大 数据 系统 设计 中 去 。 在 本 章 中 ， 我 们 首先 讨论 了 大 数据 物 联网 平台 的 设计 ， 将 物 联网 大 数据 系统 拆 分 成 了 接 入 层 、 汇 聚 层 与 核心 层 。 其 次 ， 在 汇聚 层 的 设计 中 ， 我 们 实现 了 基于 MQTT 


Kafka 网 桥 的 物 联网 数据 转发 平面 设计 ， 同 时 我 们 使 


Kafka 完 成 了 数据 平面 数据 的 聚合 与 管理 ， 使 用 ZooKeeper 完 成 了 控制 平面 的 节点 管理 。 接 着 ， 我 们 引入 了 数据 清洗 的 概念 ， 在 物 联 网 的 


层 实现 了 对 数据 的 抽取 、 变 换 、 加 载 ， 包 括 一 致 性 检查 以 及 重复 数据 去 除 。 然 后 在 物 联网 的 核心 层 ， 我 们 进行 了 物 联 网 数据 的 统计 分 析 以 及 机 器 学 习 ， 给 出 了 基于 在 线 机 器 学 习 RLS 算 法 的 物 


并 在 日 志 系统 


基础 上 使 


跨越 ， 将 所 学 的 知识 应 


汇聚 层 及 接 入 


PMS 


安全 日 志 分 


技术 。 最 后 在 这 些 基础 之 上 ， 我 们 围绕 着 物 联 网 日 志 大 数据 技术 ， 详 细 讲 解 了 如 何 使 用 ELK 技 术 栈 实 现 物 联网 日 志 的 收集 、 索 引 、 存 储 、 可 视 化 以 及 异常 检测 与 告警 ， 


析 技 术 通 过 使 用 Keras 以 及 Kerasjs 深 度 学 习 库 实现 对 是 


客 攻击 指纹 DGA 算 法 的 检测 ， 从 而 带领 大 家 完成 了 对 整个 物 联网 大 数据 系统 的 学 习 旅 程 。 


